python爬虫框架—scrapy

scrapy的架构图:

engine:引擎:控制数据流的流向
四大组件:
scheduler:调度器:处理requests,排队再返回给engine
downloader:下载器:把requests变为response再返回给engine
spiders:爬虫:解析response变为items/requests
item pipelines:数据项管道:对item做一些入库操作,也叫持久化
数据流:
1.engine从spider得到初始的requests
2.engine把初始requests传递给scheduler
3.scheduler返回给engine下一个要爬取的requests
4.engine将requests传递给downloader
5.downloader把response传递回engine

pipelines的作用:
1.清理html数据
2.做确认
3.查重
4.存入数据库

posted @ 2020-04-21 21:30  wind_y  阅读(172)  评论(0编辑  收藏  举报