scrapy-redis分布式爬虫,使用post方法

 

https://github.com/rmax/scrapy-redis

把源码中的 src 复制到 自己项目中

 

 

 

 

from scrapy_redis.spiders import RedisSpider
class HmmSpider(RedisSpider):
name = 'spider_redis'
allowed_domains = ['xxx1.com']
redis_key = "redisqueue_online"

custom_settings = {

'SCHEDULER' : "scrapy_redis.scheduler.Scheduler", # 启用Redis调度存储请求队列
'SCHEDULER_PERSIST' : True, # 不清除Redis队列、这样可以暂停/恢复 爬取
'DUPEFILTER_CLASS' : "scrapy_redis.dupefilter.RFPDupeFilter", # 确保所有的爬虫通过Redis去重
'SCHEDULER_QUEUE_CLASS' : 'scrapy_redis.queue.SpiderPriorityQueue',


'REDIS_HOST': '111.131.124.111',
'REDIS_PORT': '6379',
'REDIS_ENCODING': 'utf-8',
'REDIS_PARAMS': {'password': '1234'}
}

 

重写  ,发送post 请求

 

 

 

因为 要爬取的 post 请求 都是相同url  ,参数不同,   修改源码中的 dupefilter.py

 

 

 

 

 

 

 

 


 

https://www.cnblogs.com/chenhuabin/p/10867285.html

https://www.jianshu.com/p/5baa1d5eb6d9

https://blog.csdn.net/lm_is_dc/article/details/81057811

 

posted @ 2020-07-14 10:38  AngDH  阅读(473)  评论(0编辑  收藏  举报