`
Ryee
  • 浏览: 273013 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

LDA算法靠近google

阅读更多

对于SEOr每天面对的挑战来自于搜索引擎的排序算法,因为这个算法是对搜索词汇在结果页中排名到底的重要依据,并且搜索引擎通过构建一个可学习的模型来识别页面上的文本内容。

LDA算法- 主题建模&分析

 

LDA算法公式:


 

 

为了便于理解这里有个简化的形式:



 

 

我们来尝试解释一下,主题词的机会 = 该主题所在文档的出现频次 X 改主题词使用的频次 ;

 

Google会分析用户查询词汇与哪些主题是相关的,这些相关会通过描述词的周边属性来考察,例如:“桔子” 与它相关的属于水果,橙色的颜色属性等等这些内容都是它的相关联的。

 

LDA方法是非常强大的自动化学习算法,他扩展了关键词组合、复合文档间的关联。他已经在很多领域作出了杰出贡献。

 

贝叶斯定律 贝叶斯过滤方法被应用于反垃圾处理。他有效的降低了索引数据库杂质和词语的不准确性。

 

相关算法还包括:

-          TF*IDF  权重公式,比粗糙的关键词密度等指标,可以更加准确影响到关键词排名因素。

-          Followed IPs 这是我们最关心的对链接权重的考量,重点在于文本链接的价值。

-          LDA Cosine 主题与页面相关性。

 

看一些简单的例子:

1、单一关键词

 内容A包含关键词Batman,而内容B中不包含;显然搜索引擎很容易使用内容A参与排名。

 



 2、关键词词组

 关键词组合那个排名靠前,这要取决于两者那个更加相关,Wiggum与Chief相比 关键词Chief更加普遍(相关性广泛)因此内容A更容易被捕获。

备注:这个例子恰恰也说明了另外一个流行的关注指标-关键词密度,你知道怎样理解了:)

 

 

3、组合关键词(复合词)

 

 搜索引擎的相关度(relevancy),看了内容大家很容易从内容B中的描述"Daily Planet" "Clark Kent" 就会联想到超人的主要特征,带着黑边眼镜的日报记者-克拉克 :)所以 很明显内容B相关性优于内容A。

 

 

4、主题模型



 

通过内容作为人的理解能力是可以看出很明显的相关,内容B描述的乐器- 一个女人在演奏这种乐器,但是搜索引擎没有这种经验和经历,没有相关联的关键词如内容A中的更加难以识别。但幸运的是,从LDA的算法中已经评估出来内容B优于内容A。这是一种强健的算法:)

 

-----

总结:

1、算法建立在用户体验基础之上的,我们用用户的思维来考虑问题。

2、搜索引擎也在着力解决这些问题,有可能仅仅是时间的问题。 

 

 

  • 大小: 16.8 KB
  • 大小: 12.4 KB
  • 大小: 13.2 KB
  • 大小: 12.4 KB
  • 大小: 12.5 KB
  • 大小: 11.8 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics