2010年1月3日
摘要: Nutch的文件目录所包含的内容: crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间。linkdb目录存放URL的关联关系,是下载完成后分析时创建的,通过这个关联关系可以实现类似google的pagerank功能。segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系。 内含有6个子目录 content:下载页面的内容 crawl_fetch:... 阅读全文
posted @ 2010-01-03 20:47 Myhsg 阅读(700) 评论(0) 推荐(0) 编辑