Apache Nutch（二）

Nutch Crawler工作流程：

Injector - 注入
Generator - 产生抓取列表
Fetcher - 从网上抓取网页
Parse Segment - 对抓取的网页进行解析
CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB
LinkDB invertlinks

在 2-5 步骤循环 topN 次，最后执行 5步骤。

posted @ 2013-04-19 17:47 Kyle_Java 阅读(872) 评论(0) 编辑收藏举报

刷新页面返回顶部