scrapy - 随笔分类 - 达芬奇vinic

scrapy参数

摘要：当Scrapy正常运行时，下载器是瓶颈。在这种情况下，你会看到调度器中有一些请求，下载器中的并发请求数目已经达到最大值，而scraper（爬虫和pipeline）的负载较轻，正在处理的Response对象数目也不会一直增长。主要有三个设置项来控制下载器的容量：CONCURRENT_REQUEST 阅读全文

posted @ 2019-10-30 20:37 达芬奇vinic 阅读(259) 评论(0) 推荐(0)

scrapy设置logger日志

摘要：1、在settings中设置log级别，在settings.py中添加一行： LOG_LEVEL = 'WARNING' Scrapy提供5层logging级别: CRITICAL 严重错误 ERROR 一般错误 WARNING 警告信息 INFO 一般信息 DEBUG 调试信息 scrapy默认显阅读全文

posted @ 2019-10-30 13:49 达芬奇vinic 阅读(1394) 评论(0) 推荐(0)

scrapy-redis 0.6.8 配置信息

摘要：很多博客的db参数配置都不能用，所以记录一下该版本可用的配置启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefi 阅读全文

posted @ 2019-10-28 16:55 达芬奇vinic 阅读(163) 评论(0) 推荐(0)

达芬奇vinic

随笔分类 - scrapy

公告