scrapy-redis
一、去重
# 去重 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' # 连接redis REDIS_URL = 'redis://user:密码@ip:端口' # 注意:无用户密码时,不用加@符号 # 爬虫停止时,redis中的数据不清空 SCHEDULER_PERSIST = True
二、调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
三、RedisSpider
作用:爬虫任务完成后爬虫进程阻塞,等待新任务的到来,爬虫进程开启
from scrapy_redis.spiders import RedisSpider class MovieSpider(RedisSpider): name = 'quotes' useragent = '' allowed_domains = ['quotes.toscrape.com/'] def parse(self, response): pass
创建一个py文件,用于添加新任务
import redis conn = redis.Redis(host='ip',port=端口,password='密码') conn.lpush('爬虫name名称:start_urls', 'url')