摘要: <!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } --> 1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/ 2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录下面,比如 workspace. 3 、解压完后会有一个目录: webapps. 这个目录是 hadoop 自己所对应的页面。 datanode 、 h... 阅读全文
posted @ 2010-01-05 17:54 searchDM 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 一):Nutch的工作流程: Crawdb、linkdb 是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。 (一):流程综述: 【1】:injec... 阅读全文
posted @ 2010-01-05 15:42 searchDM 阅读(453) 评论(0) 推荐(0) 编辑