摘要: http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral 下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。 在编译后 bi 阅读全文
posted @ 2016-04-14 18:32 _海阔天空 阅读(4480) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/jimanyu/article/details/5619949 一:配置Nutch: 1、解压缩的nutch后,以抓取http://www.163.com/为例, 新建一个文件urls,在文件中输入http://www.163.com/保存,这个文件可以放在 阅读全文
posted @ 2016-04-14 18:29 _海阔天空 阅读(778) 评论(0) 推荐(0) 编辑