常用的 链接分析算法

这几天,正在研究爬虫,看了看几种获取网页权值的链接分析算法。

PageRank算法:
考虑链接到本网页的网页的pagerank值,还有链接网页的出度
最初的:PR(A)=(1-d)+d(PR(Ti)/C(Ti)
google网页排序由三个因素决定:页面的特定因素,入链锚的文字内容,pagerank值
根据页面的特定因素和入链锚的文字内容计算出网页的IR值然后结合PageRank值表示网页的重要程度(IR值*PageRank值)
HITS算法 JoneKleinberg(Hypertext-Induced Topic Search)
将每个网页赋两个值:hub和authorities  
根据特定的提问构造WWW聚集子图的做法:
用基于文本的搜索引擎如Alta Vista Hotbot获得查询结果集取排名最高的前t个
扩充结果集:结果集中页面所指向的页面和指向结果集中页面的链接页面去其中任意d个
链接分为:横向链接(不同域名)和内在链接(同一域名下的删除)
网页权重的传递方式:I操作(hub--->authority)和O操作(authority--->hub)
其他链接分析算法
ARC算法(automatic resource compilation)
在赋予网页集对应的链接矩阵初值时,结合了链接的锚文本
扩展链接长度为2
目标前15个A/H重要的网页保持稳定即可,不需要A/H整个收敛
具有很高的计算率
Hub平均算法(Hub Averaging Kleinberg)(Allan Borodin)
修改了:使得仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高
阈值算法(Threshold Kleinberg)(Allan Borodin)
Hub阈值算法:在计算网页(p)的Authority时,不考虑指向它的所有网页的Hub值对它的贡献,只考虑Hub值超过平均值的网页的贡献
Authority阈值算法:不考虑所有p指向的网页的Authority对p的hub值贡献,只计算前K个权威网页对Hub值的贡献
PageRank与HITS的比较:
HITS是相对于某个检索主题的权重,为query dependent ;PageRank算法独立于检索主题 称为query independent
HITS认为 网页的重要性的传播是通过hub页向authority页传递。两者有相互增强的关系 
PageRank认为 基于随机冲浪模型(random surfer)从一个authority 到另一个authority
PageRank处理的数据量远远大于HITS算法
 
如果还有其他的方法,请大家补充之,大家共勉!!!

posted on 2012-11-14 22:41  woyuchengxian  阅读(817)  评论(0编辑  收藏  举报

导航