摘要:
CrawlSpider就是爬虫类Spider的一个子类 使用流程 1. 创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider t crawl spider_name www.xxx.com 2. 构造链接提取器和规则解析器 链接提取器: 作用:可以根据指定的规则进行指 阅读全文
摘要:
下载中间件的应用 scrapy中间件有: 爬虫中间件,下载中间件 下载中间件应用较多 下载中间件: 作用:批量拦截请求和响应 拦截请求: UA伪装:将所有的请求尽可能多的设定成不同的请求载体身份标识 request.headers['User Agent'] = 'xxx' 代理操作:request 阅读全文
摘要:
提高scrapy爬取效率配置 阅读全文
摘要:
请求传参实现深度爬取 请求传参: 实现深度爬取:爬取多个层级对应的页面数据 使用场景:爬取的数据没有在同一张页面中 在手动请求的时候传递item:yield scrapy.Request(url,callback,meta={'item':item}) 将meta这个字典传递给callback 在c 阅读全文
摘要:
scrapy 图片数据的爬取 基于scrapy进行图片数据的爬取: 在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道 配置文件中写入文件存储位置:IMAGES_STORE = './imgsLib' 在管道文件中进行管道类的制定: 1.from scrapy.pipelines.image 阅读全文
摘要:
1.scrapy框架 1.1 安装scrapy 1. pip3 install wheel 2. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/ twisted 3. 进入下载目录,执行 pip3 install Twisted‑17.1.0 阅读全文
摘要:
一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 二.安装 阅读全文
摘要:
1 栈 栈的分析与应用: 分析:和栈相关的最有用的想法之一来自对它的观察。假设从一个干净的桌面开始,现在把书一本本叠起来,你在构造一个栈。考虑下移除一本书会发生什么。移除的顺序跟刚刚被放置的顺序相反。栈之所以重要是因为它能反转项的顺序。插入跟删除顺序相反。 应用:每个 web 浏览器都有一个返回按钮 阅读全文
摘要:
xpath 解析 模块安装 : pip install lxml xpath的解析原理 实例化一个etree类型的对象,且将页面源码数据加载到该对象中 需要调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 etree对象的实例化 etree.parse(fileNan 阅读全文
摘要:
1.数据解析 解析: 根据指定的规则对数据进行提取 作用: 实现聚焦爬虫 数据解析方式 : 数据解析的通用原理 : 数据解析需要作用在页面源码中(一组html标签组成的) 通用原理: 标签定位 获取文本或者属性 正则表达式实现数据解析 2.bs4 解析模块 模块安装 : pip install bs 阅读全文