PageRank算法
应用:
对于网页检索结果进行排序
核心思想:
指向一个网站的链接越多,这个网站就越重要;如果一个网站被一些很重要的网站指向,那么这个网站也很重要。
PageRank最简单的公式:
![](http://shucloud.shu.edu.cn:8080/forum/data/attachment/forum/201511/11/233820llj09iimiiaz9j02.jpg)
u是一个网页,Bu是指向u的所有网页的集合,R为最简单的PageRank值,c为标准化因子(0<c<1),Nv为v指向其他网页的总链接数量。
遇到的问题:
(1)一些网页没有外链
(2)一些网页构成循环
解决:
![](http://shucloud.shu.edu.cn:8080/forum/data/attachment/forum/201511/11/233820ue8phckqh5mmwhhp.jpg)
增加E,其中E(u)为第u个网页的逃脱因子。
矩阵表示为
![](http://shucloud.shu.edu.cn:8080/forum/data/attachment/forum/201511/11/233820uqgd63i83eddiggg.jpg)
当u有指向v的链接则Au,v为1/Nu ,否则为0,令||R’||1 = 1,1为全1的向量
PageRank计算:
![](http://shucloud.shu.edu.cn:8080/forum/data/attachment/forum/201511/11/233820heteftfqkoffxfvt.jpg)
总结:
PageRank通过网页的超链接关系计算得到,有效地提高了检索的效率。