摘要: 现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中 现在我们需要在SETTING.PY设置我们的爬虫文件 再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存储完毕还需要向主机进行存储会给主机造成压力 设置完这些后,在MASTER主机开启REDIS服务,将代 阅读全文
posted @ 2018-02-21 15:40 我爱在伊甸园吃苹果 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点出来了,共享请求队列,看一下架构: 三台主机由一个队列控制,意味着还需要一个主机来控制队列,我们一般 阅读全文
posted @ 2018-02-21 15:08 我爱在伊甸园吃苹果 阅读(681) 评论(0) 推荐(0) 编辑