scrapy-redis(迁移)

1.请求对象的持久化

2.去重指纹的永久化

所有请求对象、去重指纹均存储在redis中,而不是在内存中,断电/关机即消失,如果第一次请求未完成,第二次需要重新请求全部。

3.实现分布式

所有的服务器公用一个redis中的request对象

流程图:

scrapy_redis的流程

 

在项目中settings.py中配置:

RedisPipeline:配置所请求的数据存储在redis中,

RFPDupeFilter:配置指纹存储在redis中,

Scheduler:配置调度器,所有request对象存储在redis中

  • RedisPipeline

    redis中数据以列表存储

  • RFPDupeFilter

posted @ 2019-07-20 21:52  Justaman  阅读(158)  评论(0编辑  收藏  举报