scrapy框架day01

scrapy框架介绍

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

scrapy安装

Windows： # 跟步骤走即可

a. pip3 install wheel

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted # 下载你当前python的版本

c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install pywin32

e. pip3 install scrapy

完成上步骤后

　　创建项目　　scrapy startproject 项目名

　　　　目录结构 : 如图

　　　　　　　　　　文件介绍

　　　　　　　　　 　scrapy.cfg   项目的主配置信息。（真正爬虫相关的配置信息在settings.py文件中）
　　　　　　　　     items.py     设置数据存储模板，用于结构化数据，如：Django的Model
　　　　　　　　     pipelines    数据持久化处理
　　　　　　　　     settings.py  配置文件，如：递归的层数、并发数，延迟下载等
　　　　　　　　     spiders      爬虫目录，如：创建文件，编写爬虫解析规则