2012年6月1日

heritrix总结---定制FrontierScheduler

摘要: Heritrix扩展有两种方式:一种是重写FrontierScheduler;一种是重写Extractor;今天讲第一种。它的作用是在后处理时踢出一些不满足条件的url,直接上代码package org.VOD.Video; import org.archive.crawler.datamodel.CandidateURI; import org.archive.crawler.postprocessor.FrontierScheduler; public class FrontierSchedulerForKuwo extends FrontierScheduler { private... 阅读全文

posted @ 2012-06-01 00:18 linzuxin 阅读(232) 评论(0) 推荐(0) 编辑

导航