Scrapy框架学习（一）Scrapy框架介绍

Scrapy框架的架构图如上。

Scrapy中的数据流由引擎控制，数据流的过程如下：

1.Engine打开一个网站，找到处理该网站的Spider，并向该Spider请求第一个要爬取得URL。

2.Engine从Spider中获取到第一个要爬的URL，并通过Scheduler以Request的形式调度。

3.Engine向Scheduler请求下一个要爬取的URL。

4.Scheduler返回下一个要爬取的URl给Engine，Engine将URL通过Downloader Middlewares转发给Downloader下载。

5.一旦页面下载完毕，Downloader生成该页面的Response，并将其通过Downloader Middlewares发送给Engine。

6.Engine从下载器中接收到Response，并将其通过Spider Middlewares 发送给Sprider处理。

7.Spider处理Response，并返回爬取到的Item和新的Requests给Engine。

8.Engine将Spider返回的Item给Item Pipeline，将新的Request给Scheduler。

9.重复2-8步，直到Scheduler没有更多的Request，Engine关闭网站，爬取结束。

项目文件结构如下：

scrapy.cfg ------------------------配置文件，定义了项目的配置文件路径，部署相关信息等内容

project/　　　　　　　　　　　　

　　__init__.py　　　　　　　　　　

　　items.py ------------------------定义Item数据结构，所有Item的定义都放在这里

　　pipelines.py ------------------------定义Item Pipeline,所有的Item Pipeline的实现放在这里

　　settings.py ------------------------定义项目的全局配置

　　middlewares.py ------------------------定义Sprider Middlewares 与Downloader Middlewares

　　spiders/

　　　　__init__.py

　　　　spider1.py ------------------------每个Sprider文件包含一个Spider的实现，可以有多个Spider

　　　　spider2.py

　　　　....

posted @ 2018-11-15 19:51 东东欧尼酱阅读(189) 评论(0) 编辑收藏举报

刷新页面返回顶部

东东欧尼酱

Scrapy框架学习（一）Scrapy框架介绍

公告