Information Retrieval --- Web Search
一、检索应用:采样、查重
二、链接分析
1.PageRank
一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多,那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向,那么它也越重要(PageRank越高) 。
*随机游走(Random Walk)模型:到达u的概率由两部分组成,一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有
2.HITS(Hyperlink-Induced Topic Search)算法
一个网页被越重要的导航型网页指向越多,那么它的Authority越大;一个网页指向的高重要度权威型网页越多,那么它的Hub越大。
计算过程:
a.搜索的结果称为根集(root set);
b.将所有链向种子集合和种子集合链出的网页加入到种子集合;
c.新的更大的集合称为基本集(base set);
d.最后,在基本集上计算每个网页的hub值和authority值 (该基本集可以看成一个小的Web图)。