Scrapy 框架安装

Scrapy架构图(绿线是数据流向)：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

一、Linux 的安装方式

pip install scrapy

二、Windows的安装

注册： python3 licence3.py 程序
下载符合系统版本的 pywin32 程序：https://sourceforge.net/projects/pywin32/files/ 或 pip3 install pywin32 直接安装
pip3 install wheel
下载符合系统版本的twisted文件 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 进入文件所在目录：pip3 install Twisted-17.9.0-cp36-cp36m-win_amd64.whl
pip3 install scrapy

注：安装后检查系统是否有 scraoy.ext 命令

posted @ 2018-03-12 10:25 叨客厨子阅读(136) 评论(0) 编辑收藏举报

刷新页面返回顶部

叨客厨子