摘要: 开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更新,如有其他问题,请留言......相关问题: 1.Heritrix散列30个DNS后就结束 2.如何用Heritrix实现增量抓取,也就是抓取更新了的网页1.Heritrix散列30个DNS后就结束: 总体来说,是30个抓取线程去获取网站数据发 阅读全文
posted @ 2013-09-01 17:36 成风魄郎 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止了则重新初始化Heritrix,让Heritrix重新抓取,但这个方法就不可避免的会导致抓取重复URl,除非从recover.gz导入)。我想这2个问题都可以用我下面这个方法,但对于Heritrix异常终止的问题这个方法也只是治标不治本,要改动的地方蛮多,涉及到Heritrix的设计以及结构,不是一时可以完成。下面就介绍原理以及方法: 阅读全文
posted @ 2013-09-01 17:35 成风魄郎 阅读(375) 评论(0) 推荐(0) 编辑