摘要:
一、软件测试定义 通过手工或工具对“被测对象”进行测试操作,从而验证实际结果与预期结果之间是否存在差异 二、软件测试的作用 1、通过测试工作可以发现并修复软件当中存在的缺陷,从而提高用户对产品的使用信心 2、测试可以记录软件运行过程中产生的一些数据,从而为决策提供数据支持 3、测试可以降低同类类产品 阅读全文
摘要:
一、接触过几种爬虫模块? urllib,requests 二、robots协议是什么? 规定哪些数据不能爬取,防君子不防小人 request模块没有使用硬性的语法对该协议进行生效 scrapy框架中硬性的语法对该协议进行了生效 三、如何处理验证码 使用三方平台,如云打码、打码兔 四、掌握几种数据解析 阅读全文
摘要:
概念: 监测网站数据更新的情况,只会爬取网站最新更新出来的数据 分析: 指定一个起始url 基于CrawlSpider获取其他页码链接 基于Rule将其他页码链接进行请求 从每一个页码对应的页面源码中解析出每一个电影详情页的url 核心:检测电影详情页的url之前有没有请求过 将爬取过的电影详情页的 阅读全文
摘要:
概念:我们需要搭建一个分布式的集群,让其对一组资源进行分布联合爬取 作用:提升爬取数据的效率 如何实现分布式: 安装一个scrapy-redis的组件 原生的scrapy是不可以实现分布式爬虫的,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫 scrapy-redis组件作 阅读全文
摘要:
全站数据爬取的方法 基于spider:手动请求 基于CrawlSpider CrawlSpider的使用: 创建一个工程 cd xxx 创建爬虫文件(Crawlspider): 指令 scrapy genspider -t crawl xxx www.xxx.com 链接提取器 LinkExtrac 阅读全文
摘要:
位置:middlewares.py文件中 一、爬虫中间件 二、下载中间件 1、位置:引擎和下载器之间 2、作用:批量拦截到整个工程中所有的请求和响应 3、拦截请求: UA伪装:写在process_request方法中 # UA池 user_agent_list = [ "Mozilla/5.0 (W 阅读全文
摘要:
位置:middlewares.py文件中 一、爬虫中间件 二、下载中间件 1、位置:引擎和下载器之间 2、作用:批量拦截到整个工程中所有的请求和响应 3、拦截请求: UA伪装:写在process_request方法中 # UA池 user_agent_list = [ "Mozilla/5.0 (W 阅读全文
摘要:
基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别? 字符串:只需要基于xpath进行解析且提交管道进行持久化存储 图片:xpath解析出图片src的属性值,单独的对图片地址发起请求获取图片二进制类型的数据 ImagesPipeline: 只需要将img的src的属性值进行解析,提交到管道 阅读全文
摘要:
一、引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)二、调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的 阅读全文
摘要:
全站数据爬取就是将网站中某板块下的全部页码对应的页面进行爬取解析 需求:爬取校花网中照片的名称 实现方式: 将所有页面的url添加到start_url列表中(不推荐) 自行手动的进行请求发送(推荐) 手动请求发送 yield scrapy.Request(url=new_url,callback=s 阅读全文