scrapy 五大核心组件

- 五大核心组件:
    -  引擎(Engine) 用作于数据流处理  可以触发事务 
    -  调度器(Scheduler):请求对象去重 并压入队列,并在引擎再次请求的时候返回,可以想象成一个url的优先队列,由他来决定下一个要抓取的网址是什么,同时去除重复的网址
        - 过滤器
        - 队列
    -  下载器(Downloader) 进行异步下载
    -  爬虫文件(Spiders): 对url封装申请对象并发送请求 数据解析
    -  项目管道(Item Pipeline) 持久化存储
posted @ 2024-03-02 18:48  会秃头的小白  阅读(14)  评论(0编辑  收藏  举报