之前使用Nutch搭建了一个小的搜索引擎,主要搜索校内的网站。毕竟是Apache的开源项目,使用起来还是很方便的,今天就回忆一下当时的过程。

    首先先说几句废话。Nutch是Lucene下的一个子项目,是Lucene的一个具体应用,后来慢慢强大,就开始逐渐脱离Lucene变成一个独立项目。如果说Nutch=Lucene+Crawler也是不成立的,先不说底层代码的实现情况,就构架来看,Nutch是由两个所谓的网页爬虫系统和搜索器系统组成,这两个系统不仅弱耦合,而且可以分别部署在不同硬件平台上。其中的网络爬虫系统不仅抓取互联网信息,而且由他建立倒排索引;搜索器只根据索引完成查询服务。Nutch本身还是需要研究一段时间的。

   部署Nutch的步骤:

        1. 配置Nutch运行环境(JDK, Linux/Unix)

        2. 使用Nutch对要索引的内容进行抓取,建立索引。

        3. 将Nutch搭建在伺服器上(e.g Tomcat),提供查询服务。

   其中在1中,如果想要部署在Windows环境下,可以使用Cygwin来运行Nutch。

posted on 2011-03-05 11:43  水立方  阅读(848)  评论(0编辑  收藏  举报