Python爬虫：Scrapy爬虫框架

Scrapy不是一个函数功能库，而是一个爬虫框架。

Scrapy爬虫框架包含7个部分，即5+2结构：5个框架主体部分，2个中间键。

5个模块

已有实现。

已有实现。

出口；用户编写（配置）
负责对提取的信息进行后处理。

入口；用户编写（配置）
用来向整个框架提供要访问的url链接，同时要解析从网络上获得的页面的内容。

向整个框架提供了最初始得访问链接，同时对每次爬取回来得内容进行解析，产生再次产生新的爬取请求，并且从内容中分析出提取出相关得数据。

已有实现。

engine和spiders之间。
目的：对请求和爬取项的再处理。
功能：修改、丢弃、新增请求或爬取项。

engine和downloader之间。
目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制。
功能：修改、丢弃、新增请求或响应。
用户可以编写配置代码。但是如果用户不需要对request和response进行修改，就不用更改这个中间键。

从spiders模块，经过engine模块，到达scheduler模块。

engine从spiders的地方获得了爬取用户的请求（简单理解为url），这种请求即request。

从scheduler模块，经过engine模块，到达downloader模块。downloader模块的数据再经过engine模块，返回到spiders模块。

从spiders模块，经过engine模块，到达item pipelines模块以及scheduler模块。

其中，到达scheduler模块的request与第1条数据流的过程是一样的。区别在于，第1条数据流中的request直接来自spiders，第3条数据流中的request是来自downloader的。

posted @ 2022-05-20 19:17 孤舟浮岸阅读(489) 评论(0) 编辑收藏举报

刷新页面返回顶部