提升Scrapy框架爬取数据效率的五种方式
1、增加并发线程开启数量
settings配置文件中,修改CONCURRENT_REQUESTS = 100,默认为32,可适当增加;
2、降低日志级别
运行scrapy时会产生大量日志占用CPU,为减少CPU使用率,可修改log输出级别
settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ;
3、禁止cookie
scrapy默认自动保存cookie,占用CPU,如果不是真的需要cookie,可设置为不保存cookie,以减少CPU使用率,
settings配置文件中:COOKIES_ENABLED = False 解开注释
4、禁止请求重试:
对于失败的请求会重新发送,则会减慢爬取速度,因此可以在对丢失少量数据也不影响时,禁止重试,
settings配置文件中加:RETRY_ENABLED = False ;
5、减少下载超时:
如果对一个非常慢的链接进行爬取,减少下载超时可以让卡住的链接快速被放弃,从而提升效率,
在settings配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 设置超时时间;