在Eclipse中配置Heritrix 3.x

 

Heritrix交流群:262749631,欢迎大家一起参与交流

第一步:安装相关 软件

   jdk, eclipse, git,maven,eclipse的maven插件

   这几个软件安装最新版的,安装教程可以百度一下.

 

第二步:启动eclipse,初始化 workspace.

第三步:拷贝GIT仓库中的heritrix到本地的workspace目录

 在终端中 cd 进入 workspace

   然后用这个命令: git clone git://github.com/internetarchive/heritrix3.git

   此时的hertirx版本已经是3.1.2 了

第四步:把Heritrix导入到eclipse中

File / Import... / Existing Projects Into Workspace ... choose ~/workspace/heritrix了3

第一次导入eclipse会自动下载相关的依赖包,但我每次调试都会下载大量的包,困惑了一段时间,可能是maven插件没有配置本地仓库目录,给maven插件设置一个本地仓库就可以了,方法是 eclipse / 首选项 / maven / user settings ,配置文件我选择的是 我电脑里的maven安装目录下的 conf /settings.xml,要在这个配置文件先修改好本地仓库的目录,好麻烦!!

第五步:在eclipse中新建一个调试配置

  • Run / Debug Configurations...
  • 双击Java Applications
  • Main class 选择 org.archive.crawler.Heritrix
  • Arguments 设置
    • Program arguments: -a admin:admin
    • VM arguments: -Dheritrix.development


 调试时eclipse会运行大量的junit 的测试。可以在heritrix每个子项目的pom.xml跳过测试,我是这么做的。方法百度。

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+in+Eclipse,这是官网的教程,大家有什么不理解的可以参照!

 

posted @ 2013-04-16 20:53  potato1895  阅读(831)  评论(0编辑  收藏  举报