Scrapy 框架分布式爬虫

分布式爬虫

scrapy-redis 实现
原生scrapy 无法实现分布式
- 调度器和管道无法被分布式机群共享

环境安装
```
- pip install scrapy_redis
```
导包：from scrapy_redis.spiders import RedisCrawlSpider
修改spider爬虫文件
- 将爬虫类的父类修改成RedisCrawlSpider
- 删除allowed_domains和start_urls这两个属性
- 添加一个新属性：redis_key = 'xxx'(调度器队列的名称)

配置使用指定的调度器和管道（在配置文件中增加如下配置）

# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

SCHEDULER_PERSIST = True

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

指定持久化存储对应redis的服务器：
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
redis配置：（redis.windows.conf）

bind 127.0.0.1

关闭保护模式：protected-mode no
开启redis的服务端和客户端
运行工程：

scrapy runspider spiderFilePath
向调度器的队列中仍入一个起始的url：

在redis的客户端执行：lpush xxx www.xxx.com

posted @ 2019-04-22 12:29 拐弯阅读(244) 评论(0) 编辑收藏举报

刷新页面返回顶部