nutch-1.7 编译
转载自:http://peigang.iteye.com/blog/1563288 从nutch-1.3开始 本地抓取(单击) 和 分布式抓取(集群)所使用的配置文件和命令单独分开。
资源:
下载地址:http://archive.apache.org/dist/nutch/1.7/
apache-nutch-1.7-bin.tar 这个是部署的可执行的
apache-nutch-1.7-src.tar 这个用于导入eclipse进行开发
Ant 后会生成两个文件夹
apache-nutch-1.7\build
apache-nutch-1.7\runtime
将
build\apache-nutch-1.7.jar
build\apache-nutch-1.7.job
apache-nutch-1.7\runtime
复制到apache-nutch-1.7-bin.tar解压出来的文件夹。
![](http://images0.cnblogs.com/blog/316046/201308/01110801-92c72eac1430488f87eb603af1e26f55.png)
运行的命令:
单机:runtime/local/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
集群: runtime/deploy/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
异常:
依然会Job failed!
解决方案:
修改 \apache-nutch-1.7\runtime\local\conf\nutch-default.xml
apache-nutch-1.7\runtime\local\plugins
![](http://images0.cnblogs.com/blog/316046/201308/01111508-5c9716f881d24e20a30caa6301f35105.png)
类似之前1.2版本的 job failed ,只是这次修改的是local下的单机版专用的conf文件
存储位置:
http://10.0.0.75/newSvn/Search/CrawlerEngine/Platform/Distribute/nutch/Codes/branches/apache-nutch-1.7.rar