2011 年 2月 22 日随笔档案 - MorningChen

2011年2月22日

nutch源代码阅读心得

摘要： http://www.javaeye.com/topic/570440主要类分析：一、 org.apache.nutch.crawl.Injector: 1，注入url.txt 2，url标准化 3，拦截url，进行正则校验（regex-urlfilter.txt） 4，对符URL标准的url进行map对构造<url, CrawlDatum>，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！ 5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相阅读全文

posted @ 2011-02-22 09:53 MorningChen 阅读(6624) 评论(0) 推荐(0) 编辑

晨迹的个人博客

nutch源代码阅读心得

导航

公告