scrapy介绍及源码分析

一 简介

  Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。

  官方文档 :https://docs.scrapy.org/en/latest/topics/architecture.html

  最重要的是理解 Data flow。

 

别人的博客:http://kaito-kidd.com/2016/11/01/scrapy-code-analyze-architecture/

二 scrapy调优

  参考博客:

  http://www.shuang0420.com/2016/06/12/%E7%88%AC%E8%99%AB%E6%80%BB%E7%BB%93-%E4%BA%8C-scrapy/

  https://segmentfault.com/a/1190000009321902

  1 提高并发能力

    1)增加并发

CONCURRENT_REQUESTS = 100

    2)降低log级别

LOG_LEVEL = 'INFO'

https://www.cnblogs.com/shouzhong/p/7685822.html

    3)禁止cookies

COOKIES_ENABLED = False

    4)禁止重试

RETRY_ENABLED = False

    5)减少下载超时

DOWNLOAD_TIMEOUT = 15

    6)禁止重定向

REDIRECT_ENABLED = False

  2 去重与增量抓取

  

posted @ 2018-04-18 11:38  骑者赶路  阅读(189)  评论(0编辑  收藏  举报