搭建heritrix环境

                                                                          搭建heritrix环境(windows环境)

使用方式一:直接搭建hertrix

软件下载网址:

http://sourceforge.net/projects/archive-crawler/files/archive-crawler (heritrix 1.x)/1.14.4/ 

  下载好压缩包后,如图:

   

  注:有两个包,带src的是源代码版本,另一个已经编译好的版本,本实例所用的为Heritrix1.14.4的源代码版本(因为需要对Heritrix 进行一些扩展,以适应本实例的需求)

安装步骤:

(1)解压下载的heritrix-1.14.2.zip的压缩包,如将其放在E:\datasource\heritrix-1.14.2.

(2)以文本方式打开conf文件下的heritrix.properties文件,在"heritrix.cmdline.admin="后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin

注:admin:admin表示账户:密码,可以任意设定,但要与后面保持一致

(3)复制conf目录下的jmxremote.password.template文件,放到根目录heritrix-1.14.2下。重命名为jmxremote.password,修改两个管理员账号内容,

 motitorRole @PASSWORD@

 controlRole @PASSWORD@为

修改后的内容为实际工作中使用的密码,

 motitorRole admin

 controlRole admin

建议:建议用notpadd++打开文件,以txt方式打开很乱

(4)jmxremote.password改为只读属性。 

注:非常重要

(5)打开bin文件,新建一个批处理文件start.bat,文件的内容是调用bin下的"heritrix.cmd"start.bat的文件内容如下:

 heritrix.cmd --admin=admin:admin

(6).双击start.bat启动heritrix,产生两个窗口,运行成功后显示版本等信息。此时可以在浏览器端进行访问了。

 

浏览器访问:http://127.0.0.1:8080/

 

使用方式二:在eclipse环境中搭建heritrix

(稍微麻烦一点)

安装步骤参考网址

1.主要是heritrix环境搭建

 http://www.oschina.net/question/1465651_152024?fromerr=EjPsXFzz

  1. 主要是应用heritrix进行网页抓取的一个简单示例

http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/index.html?ca=drs-#major2

写的都非常详细,非常基础,适合初学者。(本来想自己写一写,又觉得没什么意思)

 

本人安装时碰到的错误:

1.Can not find sun.net.www.protocol.file.FileURLConnection
解决方法:
Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning

2. 13:24:17.971 WARN!! Failed to start: SocketListener@127.0.0.1:8080

Exception in thread "main" Heritrix version: 1.14.4

org.mortbay.util.MultiException[java.net.BindException: Address already in use: JVM_Bind]

分析:可能是由于之前使用方式一已经搭建好并在网页上运行,所以出现“already in use 

 

利用heritrix抓取网页关键点分析:

 建立projectmyself

1.设置种子:

 http://hao123.com

2.HTTPHeader设置:

 user-agentMozilla/5.0(compitable ;heritrix/1/14/4 +http://192.168.1.101)

 

posted on 2016-05-07 23:30  V3551G  阅读(179)  评论(0编辑  收藏  举报

导航