上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 19 下一页
摘要: https://www.cnblogs.com/jiangchunsheng/p/8986452.html https://www.cnblogs.com/jeavy/p/10926197.html BASE_LOG_DIR = os.path.join(BASE_DIR, "log") LOGGI 阅读全文
posted @ 2019-11-01 10:48 达芬奇vinic 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 当Scrapy正常运行时,下载器是瓶颈。 在这种情况下,你会看到调度器中有一些请求,下载器中的并发请求数目已经达到最大值,而scraper(爬虫和pipeline)的负载较轻,正在处理的Response对象数目也不会一直增长。 主要有三个设置项来控制下载器的容量:CONCURRENT_REQUEST 阅读全文
posted @ 2019-10-30 20:37 达芬奇vinic 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 1、在settings中设置log级别,在settings.py中添加一行: LOG_LEVEL = 'WARNING' Scrapy提供5层logging级别: CRITICAL 严重错误 ERROR 一般错误 WARNING 警告信息 INFO 一般信息 DEBUG 调试信息 scrapy默认显 阅读全文
posted @ 2019-10-30 13:49 达芬奇vinic 阅读(1348) 评论(0) 推荐(0) 编辑
摘要: 很多博客的db参数配置都不能用,所以记录一下该版本可用的配置 启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefi 阅读全文
posted @ 2019-10-28 16:55 达芬奇vinic 阅读(153) 评论(0) 推荐(0) 编辑
摘要: \ \ 阅读全文
posted @ 2019-10-20 11:55 达芬奇vinic 阅读(570) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 19 下一页