如何利用TF-IDF算法解释“天津SEO”的排名现象

admin
  TF-IDF算法已经被很多专业的SEO工作者所熟知,它是一种用于资讯检索与资讯探勘的常用加权技术,运用到网页分析中就是对于网页中的相关关键词进行加权,分析众多网页中某个特定关键词的相关网页关键词权值,并在后的排序算法中给予科学的依据。

  首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。为什么要分析这个公式呢?因为一个网页的TF-IDF值越大,网页中文本内容与索引词越相关,其能够在搜索引擎上获得的权值就越高,对于后期的网页的排序能够提供很大的支持。

  TF*IDF中TF词频(Term Frequency),表示词条在某个文档中出现的频率,而IDF反文档频率(Inverse Document Frequency)表示如果包含词条t的文档个数越少,IDF越大,则说明词条t具有很好的类别区分能力,用公式表示IDF可以写为:IDF(t) = log(N / DF(t))。DF(t)表示包含有某个搜索词(以t为代表)的文档数,N表示互联网的总网页数。

  另外,同一个网站相比较来看TF*IDF值,长沙站和我的细嗅蔷薇博客要提升排名,对于关键词“SEO”排名的要求就比较高,“SEO”排名起决定性作用,而A5站长站中“SEO诊断”的排名起到决定性的作用,关键词“SEO”排名对于其排名波动影响要小。

  这一点有一定的根据,例如前天天津SEO的网站“天津SEO”排名第三,当时“SEO”关键词排名第十页,现在掉到了23页,排名就下降到第十,所以多运用TF*IDF研究能够帮助我们发现很多关键词排名现象,并针对性的制定SEO优化策略。