Python爬虫知识点四--scrapy框架

一。scrapy结构数据

解释：

1.名词解析：

o 引擎(Scrapy Engine)
o 调度器(Scheduler)
o 下载器(Downloader)
o 蜘蛛(Spiders)
o 项目管道(Item Pipeline)
o 下载器中间件(Downloader Middlewares)
o 蜘蛛中间件(Spider Middlewares)
o 调度中间件(Scheduler Middlewares)

2.具体解析

绿线是数据流向
 从初始URL开始，Scheduler会将其交给Downloader进
行下载
 下载之后会交给Spider进行分析
 Spider分析出来的结果有两种
 一种是需要进一步抓取的链接，如 “下一页”的链接，它们
会被传回Scheduler；另一种是需要保存的数据，它们被送到Item Pipeline里，进行
后期处理（详细分析、过滤、存储等）。
 在数据流动的通道里还可以安装各种中间件，进行必
要的处理。

二。初始化爬虫框架 Scrapy

命令： scrapy startproject qqnews

ps：真正的项目是在spiders里面写入的

三。scrapy组件spider

爬取流程
 1. 先初始化请求URL列表，并指定下载后处
理response的回调函数。
2. 在parse回调中解析response并返回字典,Item
对象,Request对象或它们的迭代对象。
3 .在回调函数里面，使用选择器解析页面内容
，并生成解析后的结果Item。
4. 最后返回的这些Item通常会被持久化到数据库
中(使用Item Pipeline)或者使用Feed exports将
其保存到文件中。

标准项目结构实例：

1.items结构：定义变量，根据不同种数据结构定义