2011年3月5日
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2011-03-05 17:12 水立方 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 之前使用Nutch搭建了一个小的搜索引擎,主要搜索校内的网站。毕竟是Apache的开源项目,使用起来还是很方便的,今天就回忆一下当时的过程。 首先先说几句废话。Nutch是Lucene下的一个子项目,是Lucene的一个具体应用,后来慢慢强大,就开始逐渐脱离Lucene变成一个独立项目。如果说Nutch=Lucene+Crawler也是不成立的,先不说底层代码的实现情况,就构架来看,Nutch是由两个所谓的网页爬虫系统和搜索器系统组成,这两个系统不仅弱耦合,而且可以分别部署在不同硬件平台上。其中的网络爬虫系统不仅抓取互联网信息,而且由他建立倒排索引;搜索器只根据索引完成查询服务。Nutch本. 阅读全文
posted @ 2011-03-05 11:43 水立方 阅读(848) 评论(0) 推荐(0) 编辑