Fork me on GitHub

07 2014 档案

摘要:本文主要讲解了自己阅读nutch中Generate整个运行过程,Generate主要分为以下几个部分:以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中;再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments;最后更新crawldb,避免爬取的url不会重复。 阅读全文
posted @ 2014-07-27 20:35 JackieZheng 阅读(1231) 评论(0) 推荐(0) 编辑
摘要:本文主要从nutch的Crawl方法开始,分享了nutch爬取的第一个步骤——注入(Inject)以及具体的流程和处理的方法 阅读全文
posted @ 2014-07-26 14:53 JackieZheng 阅读(1331) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示