heritrix总结---定制FrontierScheduler
摘要:
Heritrix扩展有两种方式:一种是重写FrontierScheduler;一种是重写Extractor;今天讲第一种。它的作用是在后处理时踢出一些不满足条件的url,直接上代码package org.VOD.Video; import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler; public class FrontierSchedulerForKuwo extends FrontierScheduler { private... 阅读全文
posted @ 2012-06-01 00:18 linzuxin 阅读(232) 评论(0) 推荐(0) 编辑