在Eclipse中配置Heritrix 3.x
Heritrix交流群:262749631,欢迎大家一起参与交流
第一步:安装相关 软件
jdk, eclipse, git,maven,eclipse的maven插件
这几个软件安装最新版的,安装教程可以百度一下.
第二步:启动eclipse,初始化 workspace.
第三步:拷贝GIT仓库中的heritrix到本地的workspace目录
在终端中 cd 进入 workspace
然后用这个命令: git clone git://github.com/internetarchive/heritrix3.git
此时的hertirx版本已经是3.1.2 了
第四步:把Heritrix导入到eclipse中
File / Import... / Existing Projects Into Workspace ... choose ~/workspace/heritrix了3
第一次导入eclipse会自动下载相关的依赖包,但我每次调试都会下载大量的包,困惑了一段时间,可能是maven插件没有配置本地仓库目录,给maven插件设置一个本地仓库就可以了,方法是 eclipse / 首选项 / maven / user settings ,配置文件我选择的是 我电脑里的maven安装目录下的 conf /settings.xml,要在这个配置文件先修改好本地仓库的目录,好麻烦!!
第五步:在eclipse中新建一个调试配置
- Run / Debug Configurations...
- 双击Java Applications
- Main class 选择 org.archive.crawler.Heritrix
- Arguments 设置
- Program arguments: -a admin:admin
- VM arguments: -Dheritrix.development
调试时eclipse会运行大量的junit 的测试。可以在heritrix每个子项目的pom.xml跳过测试,我是这么做的。方法百度。
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+in+Eclipse,这是官网的教程,大家有什么不理解的可以参照!