随笔- 56 文章- 0 评论- 1 阅读- 60148

scrapy学习1

1.安装

我的环境是ubuntu18.04，安装就比较简单：

sudo pip3 install scrapy

2. scrapy结构

2.1 scrapy Engine(引擎)：负责spider, itemPipeline, downloader, scheduler 中间的通讯，信号，数据传递等

2.2 scheduler(调度器): 它负责接受引擎发送过来的request请求，并按照一定的方式进行整理排列，入队。

2.3 downloader(下载器)：负责下载scrapy Engine发送的所有request请求，并将其获取到的responses交给scrapy Engine(引擎)

由引擎交给spider来处理

2.4 spider(爬虫)：它负责处理所有response,从中分析提取数据，获取item字段需要的数据，并将需要跟进的url提交给引擎，

再次进入scheduler(调度器)

2.5 item Pipeline(管道)：它负责处理spider中获取到item, 并进行后去处理（详细分析，过滤，存储）的地方

2.6 downloader Middlewares(下载中间件)：你可以当作是一个可以自定义扩展下载功能的组件

2.7 spider Middlewares(spider中间件)：可以理解为是一个自定扩展和操作引擎和spider中间通信的功能组件，如（

进入spider的response;和从spider出去的response）

posted @ 2019-06-17 23:49 xqs42b 阅读(91) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

昵称： xqs42b
园龄： 7年8个月
粉丝： 1
关注： 0

2025年3月

日

一

二

三

四

五

六

xqs42b