会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
独自等待
dedicated to the one that got away from you
博客园
首页
新随笔
联系
管理
订阅
2010年1月3日
Nutch下载后的文件目录说明
摘要: Nutch的文件目录所包含的内容: crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间。linkdb目录存放URL的关联关系,是下载完成后分析时创建的,通过这个关联关系可以实现类似google的pagerank功能。segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系。 内含有6个子目录 content:下载页面的内容 crawl_fetch:...
阅读全文
posted @ 2010-01-03 20:47 Myhsg
阅读(700)
评论(0)
推荐(0)
编辑
公告