nutch 二次开发

/*深度控制*/
深度控制:nutch是广域网的深度遍历,我们需要的是垂直采集(即只采集某一个栏目),举例,索引页总计20页,如果只有下一页,则深度为20,
如果是1 2 3 4 5……20则深度为2即可。深度是未知的。相当于多了一个参数,不便于管理。 解决方案:将深度设为无限大。依靠segments来退出采集,而不是依靠深度。 /*批量dump*/ 目的:org.apache.nutch.segment.SegmentReader 类提供的命令 -dump仅仅是读取一个segment下的网页信息。为了实现批量dump,更改了代码,
将输入路径该为\crawl\segments 并遍历segments下的文件。

 

posted on 2013-10-08 10:58  雨渐渐  阅读(487)  评论(0编辑  收藏  举报

导航