Scrapy框架架构
- ENGINE:引擎,负责各个组件的管理。
- SPIDERS:各个爬虫文件类。(我们一般要写的代码就是这个)。
- SCHEDULER:调度器,
ENGINE
将爬虫任务分发给该组件,由该组件调度爬虫任务。 - DOWNLOADER: 下载器,用于接收
SCHEDULER
的任务,并向指定的URL发起请求然后返回响应数据给SPIDERS
组件,交给SPIDER组件进一步处理数据。 - ITEM PIPELINES:ITEM就是一个模型类,ITEM管道用于对
SPIDER
组件处理好的数据进行持久化存储。 - MIDDLEWARE:中间件,用于对爬虫类或则下载器进行Hook类操作,比如:统一修改请求头、修改请求头的UA、设置代理IP等。
本文来自博客园,作者:蕝戀,转载请注明原文链接:https://www.cnblogs.com/juelian/p/17559620.html