1.python爬虫之Scrapy框架了解:
①Scrapy Enginc:Scrapy引擎,负责Scrapy运行过程中的数据传递、通讯、信号处理的交通站
②Spider Miiddlcwares(中间件):spider中间件;自定义扩展组件,封装代理、HTTP头组件等(隐藏自己信息的地方)
③Spiders:scrapy 爬虫,负责处理所有的Responses;提取数据,获取URL
④Scheduler:Scrapy调度器;存放URL,负责接收引擎发送过来的Requests请求,将引擎请求的数据进行排队,当引擎需要请求数据时,将请求队列中的数据交给引擎
⑤Item Pipcline:Scrapy 管道;数据队列,封装去重类,存储类的地方,复制处理spider中获取到的数据并进行后期的处理,过滤或者存储
⑥Downloader:Scrapy下载器;负责发送请求并下载数据(数据的解析和下载)
⑦Downloader Middlewares(中间件):下载中间件
2.Scrap依赖Twisted异步网络框架来处理网络通讯的信息传输
①安装scrapy模块
easy_install scrapy ***pip安装不了采用此方法***
②安装twisted模块:安装此模块之前需要先安装 C++ Build Tool 打包工具:
pip install twisted
***在创建scrap项目的时候报以下错误,需要在安装twisted模块之前安装打包工具***
--1.C++ Build Tool 打包工具地址:https://blogs.msdn.microsoft.com/pythonengineering/2016/04/11/unable-to-find-vcvarsall-bat/
--2.下载安装打包工具后安装twisted模块报以下错误
***解决方案***
--打开:C:\Program Files (x86)\Windows Kits\8.1\bin\x86地址,复制两个文件:rcdll.dll、rc.exe 到:C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\bin路径下,重新执行:pip install twisted即可安装
③安装pyasnl-modules模块:
pip install pyasnl-modules
***要成功创建scrapy爬虫项目,以上3个模块库是必须安装,其他的缺什么装什么就好***