scrapy-redis

一、去重

# 去重
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

# 连接redis
REDIS_URL = 'redis://user:密码@ip:端口'    # 注意：无用户密码时，不用加@符号

# 爬虫停止时，redis中的数据不清空
SCHEDULER_PERSIST = True

二、调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

三、RedisSpider

作用：爬虫任务完成后爬虫进程阻塞，等待新任务的到来，爬虫进程开启

from scrapy_redis.spiders import RedisSpider


class MovieSpider(RedisSpider):
    name = 'quotes'
    useragent = ''
    allowed_domains = ['quotes.toscrape.com/']

    def parse(self, response):
        pass

创建一个py文件，用于添加新任务

import redis

conn = redis.Redis(host='ip',port=端口,password='密码')
conn.lpush('爬虫name名称:start_urls',  'url')

posted @ 2019-11-15 10:01 市丸银阅读(68) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

市丸银

知行合一

scrapy-redis

公告