Scrapy爬虫框架
Scrapy框架:
Scrapy 使用了 Twisted 异步网络库来处理网络通讯。整体架构大致如下;
Scrapy 主要包括了以下组件:
1、引擎(Scrapy Engine):用来处理整个系统的数据流处理,并进行事务处理的触发。
2、调度器(Scheduler):用来接受引擎发过来的请求,并排序列入队列中,并在引擎再次发出请求的时候返回。
3、下载器(Downloader):用于下载网页内容,并将网页内容返回给蜘蛛。
4、蜘蛛(Spiders):蜘蛛是主要干活的,用它来制订特定域名或网页的抓取和解析规则。
蜘蛛由Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。
蜘蛛的整个抓取流程(周期):
(1)首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
(2)在回调函数中,可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
(3)在回调函数中,解析网站的内容,使用的是Xpath选择器(也可以使用BeautifuSoup, lxml或其他的程序),并生成解析的数据项。
(4)最后,从蜘蛛返回的项目通常会进驻到项目管道。
5、项目管道(Item Pipeline):负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是,是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。
项目管道通常执行的过程有:
(1)清洗HTML数据
(2)验证解析到的数据(检查项目是否包含必要的字段)
(3)检查是否是重复数据(如果重复就删除)
(4)将解析到的数据存储到数据库中
6、下载器中间件(Downloader Middlewares):位于 Scrapy 引擎和下载器之间的钩子框架,主要是处理 Scrapy 引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。是轻量级的,对Scrapy尽享全局控制的底层的系统。
7、蜘蛛中间件(Spiders Middlewares):介于 Scrapy 引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。
8、调度中间件(Scheduler Middlewares):介于 Scrapy 引擎和调度之间的中间件,从 Scrapy 引擎发送到调度的请求和响应。它提供了一个自定义的代码来拓展Scrapy的功能。
数据处理流程:
Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:
1、引擎打开一个域名时,蜘蛛会处理这个域名,并让蜘蛛获取第一个爬取的URL。
2、引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
3、引擎从调度那获取接下来进行爬取的页面。
4、调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
5、当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
6、引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
7、蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
8、引擎将抓取到的项目项目管道,并向调度发送请求。
9、系统重复第二步后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。
异步IO:
Twisted