摘要: Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] 参数说明: < 阅读全文
posted @ 2011-12-28 15:14 ljlxyf 阅读(322) 评论(0) 推荐(0) 编辑