nutch学习第一天
首先看了nutch的基本定义和用法。
1 创建一个新的WebDb admin db -create
2 将抓取起始urls写入WebDb inject
3 根据WebDb生成fetchlist并写入相应的segment generate
4 fetcher根据fetchlist中的url抓取网页 fetch
5 根据抓取的网页更新WebDb updatedb
6 循环执行3-5步直至达到预先设定的抓取深度
7 根据WebDb中的网页评分和links更新segments updatesegs
8 将网页建立索引 index
9 丢弃索引中有重复内容的网页和重复的urls dedup
10 将segments中的索引进行合并并生成用于检索的最终index merge
然后在CU上看到nutch专题,下载地址,已经更新到1.4了。
下载 http://apache.etoak.com//nutch/
由于近期准备装Linux,所以win版和Linux版的都下载了。
nutch是基于lucene的,lucene的索引查看工具是
http://www.oschina.net/p/luke
准备安装,才发现win下使用,需要安装cygwin 。
cygwin是一个在windows平台上运行的unix模拟环境,是cygnus solutions公司开发的自由软件。它对于学习unix/linux操 作环境,或者从unix到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。
cygwin的安装,居然有点小问题。官网的是在线安装,网络上有离线版的。为了保持最新,我用的是在线版。然后再选择组件那一步,什么组件都没有选,就next了,结果使用的时候报错。go之发现,少组件,现在选的是组件全部安装。
网络好慢啊,出去走走。
安装好了。