2013年7月19日

摘要: 深入学习Heritrix---解析处理器(Processor)本节解析与处理器有关的内容.与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类),ProcessorChainList(处理器链列表).它们之间的关系如下:下面将解析该图.(1)Processor代表一个处理器.Code(2)ProcessorChain该类实际上实现一个队列的功能,它代表一个由许多处理器连接的处理器链.Code(3)ProcessorChainList该类是保存一次抓取任务的所有的处理器链(ProcessorChain).packageorg.archive.cr 阅读全文
posted @ 2013-07-19 15:58 根号三的平方 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){ // Tell handler to start crawl job handler.startCrawler();}再来看看startCrawler()方法的执行:publicclassCrawlJobHandl 阅读全文
posted @ 2013-07-19 15:57 根号三的平方 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更新,如有其他问题,请留言......相关问题: 1.Heritrix散列30个DNS后就结束 2.如何用Heritrix实现增量抓取,也就是抓取更新了的网页1.Heritrix散列30个DNS后就结束: 总体来说,是30个抓取线程去获取网站数据发 阅读全文
posted @ 2013-07-19 15:48 根号三的平方 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724本博客已迁移到本人独立博客:http://www.yun5u.com/ 近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止了则重新初始化Heritrix,让Heritrix重新抓取,但这个方法就不可避免的会导致抓取重复URl,除非从recover.gz导入 阅读全文
posted @ 2013-07-19 15:44 根号三的平方 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 上一篇博客主要介绍了CrawlController的各个属性,博客地址:http://guoyunsky.iteye.com/blog/650744 ,以及三个特殊的属性.这里就介绍它的相关方法,首先从初始化开始介绍,主要请看代码以及注释:1.Heritrix的初始化:/ 阅读全文
posted @ 2013-07-19 15:27 根号三的平方 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650694本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利!可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。同时CrawlController也基本上贯穿整个Heritrix代码,和CrawlURI一样 阅读全文
posted @ 2013-07-19 15:25 根号三的平方 阅读(176) 评论(0) 推荐(0) 编辑

2013年7月18日

摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649889本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 Url是爬虫的核心,因为爬虫就是依赖URL一层一层的抓取下去,最后完成整个抓取。Heritrix中的URL比较特殊,有以下继承关系(由于不对继承关系作介绍,所以这里就不画图了):1)org.archive.crawler.datamodel.CrawlURI——>Ca 阅读全文
posted @ 2013-07-18 16:02 根号三的平方 阅读(347) 评论(0) 推荐(1) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus Code竟然有如此之多。不一样的HttpStatus Code就代表不一样的Http状态,简单的如成功、失败、重定向等... 阅读全文
posted @ 2013-07-18 15:41 根号三的平方 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的任何东西,也会继续抓取A没有 阅读全文
posted @ 2013-07-18 15:39 根号三的平方 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/643367 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理器的作用以及大概处理的步骤。以后分析源码的时候再细节分析...... 8个处理器都继承org.archive.cra 阅读全文
posted @ 2013-07-18 15:27 根号三的平方 阅读(195) 评论(0) 推荐(0) 编辑

导航