Nutch研究系列1——安装
最近着手开始研究Nutch,以前在Linux上曾经对Nutch鼓捣过一段时间,但当时纯粹是出于一种好奇和玩乐的心态,并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫,在此之前又一直关注于搜索算法理论和数学模型等的学习上,现在是到了静下心来在实现技术上花点功夫的时候了。
其实一开始,我的目标曾经是Larbin(详细介绍请Google),但是最终转向了Nutch,主要考虑到两个方面的问题:一是Larbin的功能有点单薄,只有抓取功能的实现,接下来的索引等工作都需要自己来完成,而我目前主要的目的在于主题抓取,其余的部分我不想过于涉足,只想有一个实验平台就好。如果用Larbin的话就需要花费相当的时间在抓取以外的部分;用Nutch的话就比较方便了,其功能比较齐全,直接可以搭建起来进行搜索引擎的运行,这样我就可以集中精力对其抓取的部分进行分析和研究,作出我自己需要的改进。另一方面就是考虑到编程语言的问题,Larbin是基于c++的,Nutch则是基于java的,对我而言,java的能力要远高于c++,选择java对我有利。不过相对的,c++的速度我就享受不到了,虽然有点担心,但是目前对于我只是研究来说,好像还不需要太多的担心。
至于操作系统,最好当然是Linux,但是目前我却是在windows上进行测试。因为我现在是在我个人的pc上进行学习,一边要运行它,另一边我还得做很多其它的工作,等过些时候导师的服务器到了,到时候再配置到那上面去吧。
说了这么多废话,言归正传,安装测试Nutch。有过Linux的安装经验,在windows上面难度其实不大,但是还是碰到了几个问题,让我晕得厉害。详细的安装指南请参考朱春雷:Nutch在windows中安装之细解和Nutch使用之锋芒初试。这两篇文章写的很不错,很值得向人推荐,其中所需资源的下载链接速度也是很快的,1G多的cygwin半个小时就down下来了。
唯一需要注意的是,文章默认为你是一个java入门级的人,所以对jdk和tomcat的安装配置都没有进行详细介绍,一些小的操作也是一笔带过,请大家小心。
我在安装过程中碰到了一个不算问题的郁闷事,那就是我下载的最新版本Nutch的tar.gz压缩包在解压缩的时候总是报错,说是"tar存档文件出现错误",一开始我以为是flashget多线程下载损坏文件了,后来我怀疑winrar有问题,后来折腾了五六遍也不知道是怎么回事。说是下载坏了,重下载也不行,说是winrar不行,winzip也不行,真是郁闷。后来终于等到cygwin下载完了,得了,直接安装上去用Linux命令tar xvzf file.tar.gz 解压缩吧。果然就成功了,Nutch真是欺负windows啊,哈哈。
安装完了,接下来的进一步研究且待后续分解:)