Nutch搭建简单搜索引擎（一）

之前使用Nutch搭建了一个小的搜索引擎，主要搜索校内的网站。毕竟是Apache的开源项目，使用起来还是很方便的，今天就回忆一下当时的过程。

首先先说几句废话。Nutch是Lucene下的一个子项目，是Lucene的一个具体应用，后来慢慢强大，就开始逐渐脱离Lucene变成一个独立项目。如果说Nutch＝Lucene+Crawler也是不成立的，先不说底层代码的实现情况，就构架来看，Nutch是由两个所谓的网页爬虫系统和搜索器系统组成，这两个系统不仅弱耦合，而且可以分别部署在不同硬件平台上。其中的网络爬虫系统不仅抓取互联网信息，而且由他建立倒排索引；搜索器只根据索引完成查询服务。Nutch本身还是需要研究一段时间的。

部署Nutch的步骤：

1. 配置Nutch运行环境（JDK, Linux/Unix）

2. 使用Nutch对要索引的内容进行抓取，建立索引。

3. 将Nutch搭建在伺服器上（e.g Tomcat）,提供查询服务。

其中在1中，如果想要部署在Windows环境下，可以使用Cygwin来运行Nutch。

posted on 2011-03-05 11:43 水立方阅读(848) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Nutch搭建简单搜索引擎（一）

公告