随笔分类 - python爬虫
摘要:Scrapyd && Logparser Scrapyd快速入门 简介: Github地址 官方文档 Scrapyd是用来运行scrapy爬虫的一个服务 特点:允许部署scrapy项目并且通过HTTP JSON的方式来控制爬虫 对scrapy的理解: scrapyd其实是一个服务器端的服务,真正部署
阅读全文
摘要:Scrapy scrapy架构图 图源网络,侵删 Scrapy主要组件: 引擎(Scrapy) 用来处理整个系统的数据流, 触发事务,是框架的核心 调度器(Scheduler) 用来接受引擎发过来的请求, 加入队列中, 并在引擎再次请求的时候返回. 即一个URL的优先队列, 由它来决定下一个要抓取的
阅读全文