2010 年 1月 5 日随笔档案 - searchDM

2010年1月5日

摘要：  1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/ 2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录下面，比如 workspace. 3 、解压完后会有一个目录： webapps. 这个目录是 hadoop 自己所对应的页面。 datanode 、 h... 阅读全文

posted @ 2010-01-05 17:54 searchDM 阅读(292) 评论(0) 推荐(0) 编辑

nutch的基本工作流程理解

摘要：一）：Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目录里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。（一）：流程综述：【1】：injec... 阅读全文

posted @ 2010-01-05 15:42 searchDM 阅读(453) 评论(0) 推荐(0) 编辑

wycg1984

公告