Scrapy 框架 分布式 爬虫
分布式 爬虫
-
scrapy-redis 实现
-
原生scrapy 无法实现 分布式
- 调度器和管道无法被分布式机群共享
-
环境安装
- pip install scrapy_redis
-
导包:from scrapy_redis.spiders import RedisCrawlSpider
-
修改spider爬虫文件
- 将爬虫类的父类修改成RedisCrawlSpider
- 删除allowed_domains和start_urls这两个属性
- 添加一个新属性:redis_key = 'xxx'(调度器队列的名称) -
配置使用指定的调度器和管道(在配置文件中增加如下配置)
# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 使用scrapy-redis组件自己的调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据 SCHEDULER_PERSIST = True ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 400 }
-
指定持久化存储对应redis的服务器:
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379 -
redis配置:(redis.windows.conf)
bind 127.0.0.1
关闭保护模式:protected-mode no
-
开启redis的服务端和客户端
-
运行工程:
scrapy runspider spiderFilePath
-
向调度器的队列中仍入一个起始的url:
在redis的客户端执行:lpush xxx www.xxx.com