2018 年 6月 30 日随笔档案 - 么么唧唧

2018年6月30日

scrapy分布式爬虫设置

摘要： #启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #默认请求序列化使阅读全文

posted @ 2018-06-30 12:16 么么唧唧阅读(670) 评论(0) 推荐(0) 编辑

scrapy spider及其子类

摘要： 1.spider传参在运行 crawl 时添加 -a 可以传递Spider参数: Spider在构造器(constructor)中获取参数: 2.class scrapy.spider.Spider 常用方法：name allowed_domains start_urls custom_setti 阅读全文

posted @ 2018-06-30 12:14 么么唧唧阅读(203) 评论(0) 推荐(0) 编辑

scrapy分布式爬虫设置

scrapy spider及其子类

导航

公告