2011年2月22日

nutch源代码阅读心得

摘要: http://www.javaeye.com/topic/570440主要类分析:一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级! 5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相 阅读全文

posted @ 2011-02-22 09:53 MorningChen 阅读(6624) 评论(0) 推荐(0) 编辑

导航