摘要: Heritrix可分为四大模块:1、控制器CrawlController2、待处理的uri列表 Frontier3、线程池 ToeThread4、各个步骤的处理器(1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等。(... 阅读全文
posted @ 2014-06-01 16:56 lujinhong 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 精选常用:1、 ctrl+shift+r:打开资源这可能是所有快捷键组合中最省时间的了。这组快捷键可以让你打开你的工作区中任何一个文件,而你只需要按下文件名或mask名中的前几个字母,比如applic*.xml。美中不足的是这组快捷键并非在所有视图下都能用。2、ctrl+o:快速outline 如果... 阅读全文
posted @ 2014-06-01 13:05 lujinhong 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 1、版本说明(1)最新版本:3.3.0(2)最新release版本:3.2.0(3)重要历史版本:1.14.43.1.0及之前的版本:http://sourceforge.net/projects/archive-crawler/files/ 3.2.0及之后的版本:http://archive.o... 阅读全文
posted @ 2014-06-01 13:02 lujinhong 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 一、新建项目并将Heritrix源码导入1、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;2、在Eclipse下新建Java项目,取名Heritrix.1.14.4;3、复制SRC包下面src/java文... 阅读全文
posted @ 2014-06-01 00:00 lujinhong 阅读(259) 评论(0) 推荐(0) 编辑