nutch学习第一天

首先看了nutch的基本定义和用法。

1 创建一个新的WebDb admin db -create
2 将抓取起始urls写入WebDb inject
3 根据WebDb生成fetchlist并写入相应的segment generate
4 fetcher根据fetchlist中的url抓取网页 fetch
5 根据抓取的网页更新WebDb updatedb
6 循环执行3-5步直至达到预先设定的抓取深度
7 根据WebDb中的网页评分和links更新segments updatesegs
8 将网页建立索引 index
9 丢弃索引中有重复内容的网页和重复的urls dedup
10 将segments中的索引进行合并并生成用于检索的最终index merge

然后在CU上看到nutch专题,下载地址,已经更新到1.4了。

下载 http://apache.etoak.com//nutch/

由于近期准备装Linux,所以win版和Linux版的都下载了。

nutch是基于lucene的,lucene的索引查看工具是

http://www.oschina.net/p/luke

准备安装,才发现win下使用,需要安装cygwin 。

cygwin是一个在windows平台上运行的unix模拟环境,是cygnus solutions公司开发的自由软件。它对于学习unix/linux操 作环境,或者从unix到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。

cygwin的安装,居然有点小问题。官网的是在线安装,网络上有离线版的。为了保持最新,我用的是在线版。然后再选择组件那一步,什么组件都没有选,就next了,结果使用的时候报错。go之发现,少组件,现在选的是组件全部安装。

关于cygwin的安装,可以看猴子的博客这篇也不错

网络好慢啊,出去走走。

安装好了。

nutch用户手册

posted on 2012-02-01 17:03  好学无止境  阅读(174)  评论(0编辑  收藏  举报

导航