Scrapy框架架构

ENGINE：引擎，负责各个组件的管理。
SPIDERS：各个爬虫文件类。（我们一般要写的代码就是这个）。
SCHEDULER：调度器，ENGINE将爬虫任务分发给该组件，由该组件调度爬虫任务。
DOWNLOADER：下载器，用于接收SCHEDULER的任务，并向指定的URL发起请求然后返回响应数据给SPIDERS组件，交给SPIDER组件进一步处理数据。
ITEM PIPELINES：ITEM就是一个模型类，ITEM管道用于对SPIDER组件处理好的数据进行持久化存储。
MIDDLEWARE：中间件，用于对爬虫类或则下载器进行Hook类操作，比如：统一修改请求头、修改请求头的UA、设置代理IP等。

posted @ 2023-07-17 11:32 运维爱背锅阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

AI FOR CODE 大赛

1 404 not found REOL

404 not found - REOL

00:00 / 00:00

An audio error has occurred.