2013年7月18日

摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642794 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 网上关于Heritrix的基本介绍有很多,这里就不再重复。我这里主要介绍下它的优缺点。然后我会介绍它的运作流程以及我会从流程中各个点结合源码来分别介绍.... Heritrix整体让人感觉有些复杂和繁琐,一个爬虫写成这样也真是成仙了。接触Heritrix有1年半了,大概. 阅读全文
posted @ 2013-07-18 10:09 根号三的平方 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图: 以上就是Heritrix完成的文件结构,现在一一说明序号文件名说明1ord 阅读全文
posted @ 2013-07-18 09:58 根号三的平方 阅读(229) 评论(0) 推荐(0) 编辑

2013年7月17日

摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642550 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码,所以这里就介绍下它的编程启动方式吧....这里贴上示例 阅读全文
posted @ 2013-07-17 16:51 根号三的平方 阅读(153) 评论(0) 推荐(0) 编辑
摘要: Heritrix的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面Heritrix组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分,如果有知道的请补充,谢谢!如果对包还有不熟悉的,可以查看我前面的文章,这里也给出链接http://guoyunsky.iteye.com/admin/blogs/6132491.org.archive.crawler序号类说明1CommandLineParserHeritrix也可以通过CMD命令进行操作,该类用于解析CMD命令2HeritrixHeritrix主类,可以通过该类启 阅读全文
posted @ 2013-07-17 16:38 根号三的平方 阅读(253) 评论(0) 推荐(0) 编辑

2013年7月16日

摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的. 下面就列出各个参数、说明和理想值序号配置名理想值说明100 阅读全文
posted @ 2013-07-16 16:10 根号三的平方 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412 本博客已迁移到本人独立博客:http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185, Lucene/Solr群(QQ) :118972724 order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取 阅读全文
posted @ 2013-07-16 15:50 根号三的平方 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 本博客属原创文章,欢迎转载!但转载请务必注明出处:http://guoyunsky.iteye.com/blog/613249本博客已迁移到本人独立博客: http://www.yun5u.com/欢迎加入Heritrix群(QQ):109148319,10447185(已满) , Lucene/Solr群(QQ) : 118972724 之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打 阅读全文
posted @ 2013-07-16 15:47 根号三的平方 阅读(224) 评论(0) 推荐(0) 编辑
摘要: Heritrix采用了模块化的设计,它由一些核心类(core classes)和可插件模块(pluggable modules)构成。核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。(一)heritrix的体系结构图:(二)架构分析CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获取URI,传递给线程池(ToePool)中的ToeThread处理。Frointier(边界控制器)主要确定下一个将被处理的URI,负责访问的均衡处理,避免对某一web服务器造成太大的压力。它保存着crawl的状态 阅读全文
posted @ 2013-07-16 15:23 根号三的平方 阅读(254) 评论(0) 推荐(0) 编辑

2013年6月26日

摘要: 不知不觉二十载寒窗苦读要结束了,还没有到回顾过去的时候。马上进入研三了,现在要努力加油了。还记得曾经的那个在凌晨两点奋战的宇么?归来吧! 阅读全文
posted @ 2013-06-26 10:29 根号三的平方 阅读(116) 评论(0) 推荐(0) 编辑

导航