会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
tulintao
博客园
首页
联系
订阅
管理
2019年12月8日
scrpy--分布式爬虫
摘要: 原来的scrapy中的Scheduler维护的是当前机器中的任务队列(存放着Request对象以及回调函数等信息) + 当前的去重队列(存放访问过的url地址) 实现分布式的关键就是需要找一台专门的主机在上面运行一个共享的队列,比如redis。然后重写scrapy的Scheduler,让新的Sche
阅读全文
posted @ 2019-12-08 14:43 tulintao
阅读(694)
评论(0)
推荐(0)
编辑
公告