随笔分类 - scrapy
摘要:当Scrapy正常运行时,下载器是瓶颈。 在这种情况下,你会看到调度器中有一些请求,下载器中的并发请求数目已经达到最大值,而scraper(爬虫和pipeline)的负载较轻,正在处理的Response对象数目也不会一直增长。 主要有三个设置项来控制下载器的容量:CONCURRENT_REQUEST
阅读全文
摘要:1、在settings中设置log级别,在settings.py中添加一行: LOG_LEVEL = 'WARNING' Scrapy提供5层logging级别: CRITICAL 严重错误 ERROR 一般错误 WARNING 警告信息 INFO 一般信息 DEBUG 调试信息 scrapy默认显
阅读全文
摘要:很多博客的db参数配置都不能用,所以记录一下该版本可用的配置 启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefi
阅读全文