scrapy 五大核心组件
- 五大核心组件:
- 引擎(Engine) 用作于数据流处理 可以触发事务
- 调度器(Scheduler):请求对象去重 并压入队列,并在引擎再次请求的时候返回,可以想象成一个url的优先队列,由他来决定下一个要抓取的网址是什么,同时去除重复的网址
- 过滤器
- 队列
- 下载器(Downloader) 进行异步下载
- 爬虫文件(Spiders): 对url封装申请对象并发送请求 数据解析
- 项目管道(Item Pipeline) 持久化存储