《集体智慧编程》读书笔记 2 - 网页排名
搜索与排名
1、全文搜索引擎,允许人们在大量文档中搜索一些列单词,并根据文档与这些单词的关联程度对结果进行排名。
2、词干提取算法(stemming algorithm)
词干提取算法试图将单词转换成对应的词干。例如,将单词“indexing”转换成“index”,这样当人们在搜索“index”时,也同样会得到包含indexing单词的文档。
3、基于内容的排名法(content-based ranking)
content-based ranking是根据网页的内容,利用某些可行的度量方式来对查询结果进行判断的。
常用的评价度量有三个:
①单词频度
被查询的单词在文档中出现的次数,它可以帮助我们判断该单词与某一文档的关联程度。
②文档位置
文档的主题有可能会出现在文档的起始处附近。
③单词距离
如果查询条件中有多个单词,则它们在文档中出现的位置应该靠得很近。
4、外部回指链接排名法(Inbound-link ranking)
Inbound-link ranking是利用站点的链接结构来决定查询结果中各项内容的重要程度。
①简单计数
就是简单统计有多少个链接指向了某个站点。该方法类似于人们将论文的重要程度与其他论文对它的引用次数相关联一样。
②PageRank
该算法为每一个网页都赋予了一个指示其重要程度的评价值PR。某一网页的重要程度是由指向该网页的所有其他网页的重要性(PR)以及这些网页中所包含的链接数求得的。
例如,有ABCD四个网页,现在BCD网页的PR值以及它们指向已知,求A网页的PR值。
value = PR(B)/Links(B) + PR(C)/Links(C) + PR(D)/Links(D)
= 0.5/4 + 0.7/5 + 0.2/1
= 0.125 + 0.14 + 0.2
= 0.465
在PageRank算法中,还有一个最小值0.15和一个阻尼系数0.85(阻尼系数即用户持续点击每个网页中链接的概率,具体可google)
故PR(A) = 0.15 + 0.85 * 0.465 = 0.54525
5、利用链接文本(Using Link Text)
大多数的时候,相比于被链接的网页自身所提供的信息而言,我们从指向该网页的链接中所得到的信息会更有价值。因为针对所指向的网页,网站的开发者们会倾向于提供一些解释其内容的简短描述。