Scrapy框架架构

  • ENGINE:引擎,负责各个组件的管理。
  • SPIDERS:各个爬虫文件类。(我们一般要写的代码就是这个)。
  • SCHEDULER:调度器,ENGINE将爬虫任务分发给该组件,由该组件调度爬虫任务。
  • DOWNLOADER: 下载器,用于接收SCHEDULER的任务,并向指定的URL发起请求然后返回响应数据给SPIDERS组件,交给SPIDER组件进一步处理数据。
  • ITEM PIPELINES:ITEM就是一个模型类,ITEM管道用于对SPIDER组件处理好的数据进行持久化存储。
  • MIDDLEWARE:中间件,用于对爬虫类或则下载器进行Hook类操作,比如:统一修改请求头、修改请求头的UA、设置代理IP等。
posted @ 2023-07-17 11:32  蕝戀  阅读(5)  评论(0编辑  收藏  举报