摘要: 原来的scrapy中的Scheduler维护的是当前机器中的任务队列(存放着Request对象以及回调函数等信息) + 当前的去重队列(存放访问过的url地址) 实现分布式的关键就是需要找一台专门的主机在上面运行一个共享的队列,比如redis。然后重写scrapy的Scheduler,让新的Sche 阅读全文
posted @ 2019-12-08 14:43 tulintao 阅读(674) 评论(0) 推荐(0) 编辑