会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
杰锅锅(Jackie)
宁肯像种子一样等待 也不愿像疲惫的陀螺 旋转得那样勉强
博客园
首页
新随笔
联系
订阅
管理
2014年7月27日
Nutch源码阅读进程2---Generate
摘要: 本文主要讲解了自己阅读nutch中Generate整个运行过程,Generate主要分为以下几个部分:以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中;再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments;最后更新crawldb,避免爬取的url不会重复。
阅读全文
posted @ 2014-07-27 20:35 JackieZheng
阅读(1230)
评论(0)
推荐(0)
编辑
公告