2014年9月5日

nutch 采集到的数据与实际不符

摘要: 现象,这个网站我总计能抽取将近500个URL,但实际只抽取了100条解析:nutch默认从一个页面解析出的链接,只取前 100 个。 db.max.outlinks.per.page 100 The maximum number of outlinks that we'll process ... 阅读全文

posted @ 2014-09-05 11:53 雨渐渐 阅读(241) 评论(0) 推荐(0) 编辑

nutch 采集效率--设置采集间隔

摘要: fetcher.max.crawl.delay 默认是30秒,这里改为 5秒修改nutch-default.xml fetcher.max.crawl.delay 5 If the Crawl-Delay in robots.txt is set to greater than this val... 阅读全文

posted @ 2014-09-05 11:20 雨渐渐 阅读(260) 评论(0) 推荐(0) 编辑

导航