摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/630347欢迎加入Heritrix群(QQ):109148319,10447185(已满), Lucene/Solr群(QQ) :118972724 Heritrix的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面Heritrix组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分,如果有知道的请补充,谢谢!如果对包还有不熟悉的,可以查看我前面的文章,这里也给出链接http://guoyunsk. 阅读全文
摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/632191欢迎加入Heritrix群(QQ):109148319,10447185(已满), Lucene/Solr群(QQ) :1189727249.org.archive.crawler.fetcher序号类说明1FetchDNS获取DNS数据,如IP2FetchFTP获取FTP数据3FetchHTTP获取HTTP数据4HeritrixHttpMethodRetryHandlerHTTP重试处理器,重新去连接HTTP10.org.archive.crawler.framew 阅读全文
摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/629891欢迎加入Heritrix群(QQ):109148319,10447185(已满), Lucene/Solr群(QQ) :118972724 Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的. 下面就列出各个参数、说明和理想值 序号 配置名 理想值 说明 1 0 0 最大下载字节数,就是当H... 阅读全文
摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/613412 欢迎加入Heritrix群(QQ):10447185 , Lucene/Solr群(QQ) : 118972724 order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取.当然整个order.xml里我也没有全部掌握,只知道大部分配置的作用,希望大家指 阅读全文
摘要:
欢迎加入Heritrix群(QQ):10447185, Lucene/Solr群(QQ) :118972724 之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫,这里补充下,我用的版本是1.14.3.序号包名说明1org.apache.commons.httpclient封装了apache的httpclient用于Fetch网页内容2org.apache.commo.. 阅读全文