2013年10月8日

nutch 二次开发

摘要: /*深度控制*/深度控制:nutch是广域网的深度遍历,我们需要的是垂直采集(即只采集某一个栏目),举例,索引页总计20页,如果只有下一页,则深度为20,如果是1 2 3 4 5……20则深度为2即可。深度是未知的。相当于多了一个参数,不便于管理。解决方案:将深度设为无限大。依靠segments来退出采集,而不是依靠深度。/*批量dump*/目的:org.apache.nutch.segment.SegmentReader 类提供的命令 -dump仅仅是读取一个segment下的网页信息。为了实现批量dump,更改了代码,将输入路径该为\crawl\segments并遍历segments下的文 阅读全文

posted @ 2013-10-08 10:58 雨渐渐 阅读(517) 评论(0) 推荐(0) 编辑

导航