nutch 安装配置

  之前接触过一些爬虫的东西,主要是编写脚本,爬取网页上想要的信息。最近了解了一个开源搜索引擎,这几天主要配置。遇到了一些问题。下面介绍一下安装的流程:

1、安装cygwin,主要用于window下提供linux的环境。具体安装过程可以参考http://hi.baidu.com/www100/item/b79723f239cf9449932af29f。注意选择需要的工具包。

2、cygwin中安装ssh,最好配置为不需要密码即可登陆。

3、下载hadoop1.2.1,安装jdk,配置好环境变量。注意路径下有空格的时候,配置的时候要注意。可以参考http://blog.csdn.net/liu_jason/article/details/7706781

但是配置完成后,运行wordcount,发现如下错误:

4、安装nutch2.2.1

需要下载ant进行编译,编译后。可以执行runtime/local/bin。也遇到了一些错误,经过查询依次解决。但是执行实例后,什么都没抓到。

这个问题最终解决了,我主要是将nutch抓到的数据存储到数据库就看到结果了。

其中nutch配置mysql主要参考的博客 http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html

最终显示

数据库保存了数据

希望有遇到相同问题的,多多指教!

 

posted on 2013-09-30 19:46  fengjiaoan  阅读(595)  评论(0编辑  收藏  举报

导航