Scrapy框架架构
- ENGINE:引擎,负责各个组件的管理。
- SPIDERS:各个爬虫文件类。(我们一般要写的代码就是这个)。
- SCHEDULER:调度器,
ENGINE
将爬虫任务分发给该组件,由该组件调度爬虫任务。 - DOWNLOADER: 下载器,用于接收
SCHEDULER
的任务,并向指定的URL发起请求然后返回响应数据给SPIDERS
组件,交给SPIDER组件进一步处理数据。 - ITEM PIPELINES:ITEM就是一个模型类,ITEM管道用于对
SPIDER
组件处理好的数据进行持久化存储。 - MIDDLEWARE:中间件,用于对爬虫类或则下载器进行Hook类操作,比如:统一修改请求头、修改请求头的UA、设置代理IP等。
本文来自博客园,作者:运维爱背锅,转载请注明原文链接:https://www.cnblogs.com/juelian/p/17559620.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步