菜鸟的问题
好记性不如烂笔头~。~

1.python爬虫之Scrapy框架了解:

 

①Scrapy Enginc:Scrapy引擎,负责Scrapy运行过程中的数据传递、通讯、信号处理的交通站

②Spider Miiddlcwares(中间件):spider中间件;自定义扩展组件,封装代理、HTTP头组件等(隐藏自己信息的地方)

③Spiders:scrapy 爬虫,负责处理所有的Responses;提取数据,获取URL

④Scheduler:Scrapy调度器;存放URL,负责接收引擎发送过来的Requests请求,将引擎请求的数据进行排队,当引擎需要请求数据时,将请求队列中的数据交给引擎

⑤Item Pipcline:Scrapy 管道;数据队列,封装去重类,存储类的地方,复制处理spider中获取到的数据并进行后期的处理,过滤或者存储

⑥Downloader:Scrapy下载器;负责发送请求并下载数据(数据的解析和下载)

⑦Downloader Middlewares(中间件):下载中间件

 2.Scrap依赖Twisted异步网络框架来处理网络通讯的信息传输

①安装scrapy模块

easy_install scrapy ***pip安装不了采用此方法***

②安装twisted模块:安装此模块之前需要先安装 C++ Build Tool 打包工具:

pip install twisted

***在创建scrap项目的时候报以下错误,需要在安装twisted模块之前安装打包工具***

--1.C++ Build Tool 打包工具地址:https://blogs.msdn.microsoft.com/pythonengineering/2016/04/11/unable-to-find-vcvarsall-bat/

--2.下载安装打包工具后安装twisted模块报以下错误

***解决方案***

--打开:C:\Program Files (x86)\Windows Kits\8.1\bin\x86地址,复制两个文件:rcdll.dll、rc.exe 到:C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\bin路径下,重新执行:pip install twisted即可安装

③安装pyasnl-modules模块:

pip install pyasnl-modules

***要成功创建scrapy爬虫项目,以上3个模块库是必须安装,其他的缺什么装什么就好***

posted on 2018-12-21 11:01  ArSang-Blog  阅读(535)  评论(0编辑  收藏  举报