Scrapy爬虫框架解析
Scrapy框架解析
组件
Scrapy Engine
Scheduler
Downloader
Spiders
Item Pipeline
流程
- 启动爬虫程序时,引擎开始爬取程序中给定的爬虫,然后获取到需要抓取的URL网址(可以通过爬虫类的属性
Start_urls
来指定或者重载爬虫类的start_request
方法指定),然后将URL网址的Request传递给调度器; - 下载器从调度器那获取到相应的请求后发出请求,获得页面返回的数据,将返回的数据以
Response
的形式传递给爬虫; - 爬虫针对Response中的数据进行分析,提取出相应的数据以后,将数据填充到Item中,并且传递给数据管道;
- 数据管道根据优先级顺序对Item依次进行处理,经过验证等后将Item中的数据保存到数据库中;
- 继续从调度器中获取到下一个URL请求传递给下载器,重复第二步后的步骤;
- 调度器中没有请求时,爬虫引擎则停止程序;
关注公众号:数据结构与算法那些事儿,每天一篇数据结构与算法