scrapy-redis(迁移)
1.请求对象的持久化
2.去重指纹的永久化
所有请求对象、去重指纹均存储在redis中,而不是在内存中,断电/关机即消失,如果第一次请求未完成,第二次需要重新请求全部。
3.实现分布式
所有的服务器公用一个redis中的request对象
流程图:
在项目中settings.py中配置:
RedisPipeline:配置所请求的数据存储在redis中,
RFPDupeFilter:配置指纹存储在redis中,
Scheduler:配置调度器,所有request对象存储在redis中
- RedisPipeline
redis中数据以列表存储
- RFPDupeFilter