scrapy-redis

一、去重

# 去重
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

# 连接redis
REDIS_URL = 'redis://user:密码@ip:端口'    # 注意:无用户密码时,不用加@符号

# 爬虫停止时,redis中的数据不清空
SCHEDULER_PERSIST = True

 

二、调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 三、RedisSpider

作用:爬虫任务完成后爬虫进程阻塞,等待新任务的到来,爬虫进程开启

from scrapy_redis.spiders import RedisSpider


class MovieSpider(RedisSpider):
    name = 'quotes'
    useragent = ''
    allowed_domains = ['quotes.toscrape.com/']

    def parse(self, response):
        pass

创建一个py文件,用于添加新任务

import redis

conn = redis.Redis(host='ip',port=端口,password='密码')
conn.lpush('爬虫name名称:start_urls',  'url')

 

posted @ 2019-11-15 10:01  市丸银  阅读(68)  评论(0编辑  收藏  举报