随笔分类 -  scrapy

摘要:当Scrapy正常运行时,下载器是瓶颈。 在这种情况下,你会看到调度器中有一些请求,下载器中的并发请求数目已经达到最大值,而scraper(爬虫和pipeline)的负载较轻,正在处理的Response对象数目也不会一直增长。 主要有三个设置项来控制下载器的容量:CONCURRENT_REQUEST 阅读全文
posted @ 2019-10-30 20:37 达芬奇vinic 阅读(248) 评论(0) 推荐(0) 编辑
摘要:1、在settings中设置log级别,在settings.py中添加一行: LOG_LEVEL = 'WARNING' Scrapy提供5层logging级别: CRITICAL 严重错误 ERROR 一般错误 WARNING 警告信息 INFO 一般信息 DEBUG 调试信息 scrapy默认显 阅读全文
posted @ 2019-10-30 13:49 达芬奇vinic 阅读(1362) 评论(0) 推荐(0) 编辑
摘要:很多博客的db参数配置都不能用,所以记录一下该版本可用的配置 启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefi 阅读全文
posted @ 2019-10-28 16:55 达芬奇vinic 阅读(154) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示