摘要: 第三章1、nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、命令:crawldb1)bin/nutch | grep readNutch提供了3个read命令来读取不同的文件夹下的数据2)bin/nutch readdb data/crawldb -stats (统计url抓去情况,其中的data就是抓去时的自定义的存放数据的地方)3)bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump 将统计信息打印到文件中默认是以空行分割开的文字段也可以通过参数进行格式的设定如:bin/nutch readdb 阅读全文
posted @ 2013-09-27 23:08 joy06 阅读(738) 评论(0) 推荐(0) 编辑