2014年8月28日

nutch 很多url unfetched的原因

摘要: bin/hadoop jar apache-nutch-1.7.job org.apache.nutch.crawl.CrawlDbReader crawl/crawldb -stats -sort会发现好多unfetched,原因是:nutch-default.xml对generate的时候进行... 阅读全文

posted @ 2014-08-28 19:51 雨渐渐 阅读(212) 评论(0) 推荐(0) 编辑

nutch 索引

摘要: nutch开发环境搭建 nutch-1.3导入eclipse nutch-1.7导入eclipsenutch部署 nutch-1.3linux下部署 nutch-1.7编译 nutch-1.2与nutch1.3部署的改变 nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1集群... 阅读全文

posted @ 2014-08-28 17:00 雨渐渐 阅读(241) 评论(0) 推荐(0) 编辑

导航