java 爬虫 WebMagic(四)-Scheduler

Scheduler是WebMagic中对url进行管理的组件,它主要有2个功能:

  1. 对待抓取的URL队列进行管理。
  2. 对已抓取的URL进行去重。

一般使用不需要自定义,WebMagic默认实现了QueueScheduler。

WebMagic内置了几个常用的Scheduler。

 

 

所有默认的Scheduler都默认实现了 DuplicateRemover接口,去url进行去重。

如果想要关闭去重的功能能,可以自己实现DuplicateRemover接口,在isDuplicate()方法中返回fasle就行了

public class DonothingDuplicateRemover implements DuplicateRemover {
    @Override
    public boolean isDuplicate(Request request, Task task) {
        return false;
    }

    @Override
    public void resetDuplicateCheck(Task task) {

    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return 0;
    }
}

 

posted @ 2019-09-27 17:08  懒到饿死的猫  阅读(894)  评论(0编辑  收藏  举报