Scrapy框架架构

  • ENGINE:引擎,负责各个组件的管理。
  • SPIDERS:各个爬虫文件类。(我们一般要写的代码就是这个)。
  • SCHEDULER:调度器,ENGINE将爬虫任务分发给该组件,由该组件调度爬虫任务。
  • DOWNLOADER: 下载器,用于接收SCHEDULER的任务,并向指定的URL发起请求然后返回响应数据给SPIDERS组件,交给SPIDER组件进一步处理数据。
  • ITEM PIPELINES:ITEM就是一个模型类,ITEM管道用于对SPIDER组件处理好的数据进行持久化存储。
  • MIDDLEWARE:中间件,用于对爬虫类或则下载器进行Hook类操作,比如:统一修改请求头、修改请求头的UA、设置代理IP等。
posted @   运维爱背锅  阅读(8)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.