会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
杰锅锅(Jackie)
宁肯像种子一样等待 也不愿像疲惫的陀螺 旋转得那样勉强
博客园
首页
新随笔
联系
订阅
管理
07 2014 档案
Nutch源码阅读进程2---Generate
摘要:本文主要讲解了自己阅读nutch中Generate整个运行过程,Generate主要分为以下几个部分:以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中;再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments;最后更新crawldb,避免爬取的url不会重复。
阅读全文
posted @
2014-07-27 20:35
JackieZheng
阅读(1231)
评论(0)
推荐(0)
编辑
Nutch源码阅读进程1---inject
摘要:本文主要从nutch的Crawl方法开始,分享了nutch爬取的第一个步骤——注入(Inject)以及具体的流程和处理的方法
阅读全文
posted @
2014-07-26 14:53
JackieZheng
阅读(1331)
评论(0)
推荐(0)
编辑
公告
点击右上角即可分享