搭建heritrix环境
搭建heritrix环境(windows环境)
使用方式一:直接搭建hertrix
软件下载网址:
http://sourceforge.net/projects/archive-crawler/files/archive-crawler (heritrix 1.x)/1.14.4/
下载好压缩包后,如图:
注:有两个包,带src的是源代码版本,另一个已经编译好的版本,本实例所用的为Heritrix1.14.4的源代码版本(因为需要对Heritrix 进行一些扩展,以适应本实例的需求)
安装步骤:
(1)解压下载的heritrix-1.14.2.zip的压缩包,如将其放在E:\datasource\heritrix-1.14.2.
(2)以文本方式打开conf文件下的heritrix.properties文件,在"heritrix.cmdline.admin="后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin
注:admin:admin表示账户:密码,可以任意设定,但要与后面保持一致
(3)复制conf目录下的jmxremote.password.template文件,放到根目录heritrix-1.14.2下。重命名为jmxremote.password,修改两个管理员账号内容,
motitorRole @PASSWORD@
controlRole @PASSWORD@为
修改后的内容为实际工作中使用的密码,
motitorRole admin
controlRole admin
建议:建议用notpadd++打开文件,以txt方式打开很乱
(4)将jmxremote.password改为只读属性。
注:非常重要
(5)打开bin文件,新建一个批处理文件start.bat,文件的内容是调用bin下的"heritrix.cmd",start.bat的文件内容如下:
heritrix.cmd --admin=admin:admin
(6).双击start.bat启动heritrix,产生两个窗口,运行成功后显示版本等信息。此时可以在浏览器端进行访问了。
浏览器访问:http://127.0.0.1:8080/
使用方式二:在eclipse环境中搭建heritrix
(稍微麻烦一点)
安装步骤参考网址:
1.主要是heritrix环境搭建
http://www.oschina.net/question/1465651_152024?fromerr=EjPsXFzz
- 主要是应用heritrix进行网页抓取的一个简单示例
http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/index.html?ca=drs-#major2
写的都非常详细,非常基础,适合初学者。(本来想自己写一写,又觉得没什么意思)
本人安装时碰到的错误:
1.Can not find sun.net.www.protocol.file.FileURLConnection,
解决方法:
Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
2. 13:24:17.971 WARN!! Failed to start: SocketListener@127.0.0.1:8080
Exception in thread "main" Heritrix version: 1.14.4
org.mortbay.util.MultiException[java.net.BindException: Address already in use: JVM_Bind]
分析:可能是由于之前使用方式一已经搭建好并在网页上运行,所以出现“already in use ”
利用heritrix抓取网页关键点分析:
建立project:myself
1.设置种子:
http://hao123.com
2.HTTPHeader设置:
user-agent:Mozilla/5.0(compitable ;heritrix/1/14/4 +http://192.168.1.101)