随笔分类 -  Nutch

Nutch学习过程
摘要:第三章1、nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、命令:crawldb1)bin/nutch | grep readNutch提供了3个read命令来读取不同的文件夹下的数据2)bin/nutch readdb data/crawldb -stats (统计url抓去情况,其中的data就是抓去时的自定义的存放数据的地方)3)bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump 将统计信息打印到文件中默认是以空行分割开的文字段也可以通过参数进行格式的设定如:bin/nutch readdb 阅读全文
posted @ 2013-09-27 23:08 joy06 阅读(744) 评论(0) 推荐(0) 编辑
摘要:第一讲1、通过nutch,诞生了hadoop、tika、gora。2、nutch通过ivy来进行依赖管理(1.2之后)。3、nutch是使用svn进行源代码管理的。4、lucene、nutch、hadoop,在搜索界相当有名。5、ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式(分布式和本地模式)。6、nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。7、nutch入门重点在于分析nutch脚本文件。第 阅读全文
posted @ 2013-09-24 09:52 joy06 阅读(836) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示