Apache Nutch 1.3 学习笔记十一（页面评分机制 LinkRank 介绍）

下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容，是关于Nutch 新的链接分数算法的说明，有点类似于Google的PageRank，这里有其运行的一个例子http://wiki.apache.org/nutch/NewScoringIndexingExample。

本页面描述了修订723441新的计分（即WebGraph链接分析）Nutch的功能。又见新的得分例如。

一般资料
WebGraph
循环
LinkRank
ScoreUpdater
问题
如果不忽略内部链接，将LinkRank分数相当于PageRank的分数呢？

一般资料

新的评分功能，可以发现在org.apache.nutch.scoring.webgraph。这个软件包包含多个程序，建立网络图，执行稳定的收敛链路分析，并更新crawldb那些分数。这些方案假定提取周期已经完成，现在的用户希望建立一个全球性的webgraph，从这些细分市场执行，webgraph链接分析，以得到一个全球性的相关性得分为每个URL。建立一个webgraph假设，所有环节都存储在当前要处理的段。链接不举行了一个加工周期到另一个。全球链接分析的分数是基于对当前链接和分数的链接结构的webgraph变化会改变。

目前得分作业都没有集成到作为Nutch的脚本命令必须在运行形式斌/ Nutch的org.apache.nutch.scoring.webgraph.XXXX。

WebGraph

WebGraph方案一旦所有的段取出，并准备要处理的，必须运行的第一份工作。 WebGraph发现org.apache.nutch.scoring.webgraph.WebGraph。下面是一个打印程序的使用。
```
使用：WebGraph
```
```
  - help显示此帮助消息
```
```
段<segment>段（S）使用
```
```
  webgraphdb <webgraphdb>的Web图形数据库使用
```
WebGraph方案可以采取多种细分的过程，需要一个输出目录，在其中放置完成的Web图形组件。 WebGraph创建三个不同的部分组成：一个inlink数据库，outlink数据库，节点数据库。 inlink数据库的URL和所有inlinks上市。 outlink数据库的URL和所有outlinks上市。节点数据库的URL与节点的信息，包括元inlinks和outlinks，并最终在该节点的得分上市。

循环

一旦内置的Web图形，我们就可以开始链接分析的过程。循环是一个可选的方案，试图帮助确定在Web图形的链接周期杂草垃圾邮件网站。的一个环节周期的一个例子将站点A，B，C和D，其中A到B的链接，链接到C到D的链接，链接回答：这个程序是计算昂贵，而且通常，由于时间和空间的要求，不能超过三个或四个层深度上运行。虽然它识别网站的出现，垃圾邮件和这些链接，然后在以后的LinkRank计划打折扣，其效益成本比很低。它包含在这个包的完整性，因为有可能是一种更好的方式，执行不同的算法功能。但在当前的大生产webgraphs，它的使用是气馁。在org.apache.nutch.scoring.webgraph.Loops循环。下面是一个打印程序的使用。
```
用法：循环
```
```
  - help显示此帮助消息
```
```
  webgraphdb <webgraphdb>的Web图形数据库使用
```
LinkRank

使用内置的Web图形，我们现在可以运行LinkRank执行迭代链接分析。 LinkRank是类似的PageRank的链接分析程序，收敛到稳定的全球分数为每个URL。类似的PageRank，LinkRank计划开始与常见的得分为所有URL。然后，它创建一个基于传入的链接的数量和这些链接和外向链接页面数的分数的每个URL的全球成绩。这个过程是迭代和分数趋向于收敛的迭代次数后。它是从不同的PageRank在如一个网站的内部链接和网站之间的相互联系，可以忽略不计，徇私舞弊链接。迭代次数也可以配置，默认情况下，进行10次迭代。不同于以往的海外私人投资公司得分，不保持LinkRank方案的分数从一个处理时间到另一个。重新处理运行在每个网络图和链接分数，所以我们没有分数不断增加的问题。 LinkRank需要WebGraph方案已成功完成，它为每个URL存储在节点数据库的webgraph其输出成绩。 LinkRank发现org.apache.nutch.scoring.webgraph.LinkRank。下面是一个打印程序的使用。
```
使用：LinkRank
```
```
  - help显示此帮助消息
```
```
  webgraphdb <webgraphdb>网络图DB使用
```
ScoreUpdater

一旦LinkRank程序已运行和链接分析完成后，分数必须更新到检索数据库工作与当前Nutch的功能。 ScoreUpdater程序需要webgraph的节点数据库中存储的分数和更新crawldb。如果URL中不存在的webgraph crawldb存在，那么它的得分是在crawldb清除。 ScoreUpdater需要WebGraph和LinkRank方案都已经运行，并需要检索数据库更新。 ScoreUpdater发现org.apache.nutch.scoring.webgraph.ScoreUpdater。下面是一个打印程序的使用。
```
用法：ScoreUpdater
```
```
  crawldb <crawldb> crawldb使用
```
```
  - help显示此帮助消息
```
```
  webgraphdb <webgraphdb> webgraphdb使用
```
问题

如果不忽略内部链接，将LinkRank分数相当于PageRank的分数呢？

要理解这一点，我们必须解释如何精确计算LinkRank分数。

WebGraph和LinkRank类一起工作。 WebGraph是来自相同的域或相同的主机的链接，可以忽略不计（或允许）。配置参数：
```
  link.ignore.internal.host = TRUE |虚假
```
```
 link.ignore.internal.domain =真正的|虚假
```
可以用来改变这种行为。默认情况下，它忽略了来自同一个域和主机的链接。所以从news.google.com链接不会被计算，也不会提高www.google.com得分。 WebGraph刚刚建立列出的inlinks，outlinks和节点，然后LinkRank级的流程，创造的得分。 LinkRank并密切注视这是类似原始的PageRank公式：

（1 - dampingFactor）+（dampingFactor * totalInlinkScore）

凡totalInlinkScore是指向一个页面的所有inlinks，考虑到这是迭代和所有网页开始rankOne评分（1 / numLinksInWebGraph）计算。

区别是：

循环类可用于识别和清除垃圾邮件/问题
- 联系。这个类应该找出相互链接链接周期，然后让这些链接被删除。问题是类的计算是非常昂贵的。您可以设置深入你想让它运行，但它是比指数差，所以我不会做，如果在所有超过1-3深度。这将让你
  
  互惠链接和小环节周期（A -> B -> C -> A）。真的这不添加到底得分，我只想离开它关闭不运行此作业。
您可以限制从重复的链接页面和域。再说第A
- B点两次，你可以限制它只能算一次。
有一个阻尼因子，默认设置为0.85。这
- 作为原始的PageRank文件相同。这是可配置与link.analyze.damping.factor参数。
LinkRank运行的迭代次数。理想的情况下工作会
- 迭代直到收敛到一个点的分数，目前它是一个设置迭代次数。

LinkRank分数应相当于（足够接近）的PageRank得分。有些事情要考虑：

PageRank是刚刚超过200个，谷歌使用的信号之一（如果他们
- 仍然使用它），以确定相关性。即使谷歌仍然使用它最有可能发生了变化。链接分析的分数都不错全球的相关性得分，但链接得分没有一个搜索引擎
  
  使今天。哦，我多么希望它是这么简单。 LinkRank是一个很好的出发点，就是它。
这仅仅是如您已检索的网页数量。 "
- 较大抓取段设置更好的成绩获得。
一个环节一个环节，它的内容不可知。如果你爬百米页
- 并做了LinkRank上，你将看到所有常用的犯罪嫌疑人（谷歌的 YouTube，Facebook的），但你也将看到这样的事情 FLASH下载。 LinkRank一个链接是一个链接，它不是特别在它的内容的可视一块。