南啾 - 博客园

2020年6月4日

摘要：一、软件测试定义通过手工或工具对“被测对象”进行测试操作，从而验证实际结果与预期结果之间是否存在差异二、软件测试的作用 1、通过测试工作可以发现并修复软件当中存在的缺陷，从而提高用户对产品的使用信心 2、测试可以记录软件运行过程中产生的一些数据，从而为决策提供数据支持 3、测试可以降低同类类产品阅读全文

posted @ 2020-06-04 13:36 南啾阅读(326) 评论(0) 推荐(0) 编辑

2020年6月1日

爬虫小总结

摘要：一、接触过几种爬虫模块？ urllib，requests 二、robots协议是什么？规定哪些数据不能爬取，防君子不防小人 request模块没有使用硬性的语法对该协议进行生效 scrapy框架中硬性的语法对该协议进行了生效三、如何处理验证码使用三方平台，如云打码、打码兔四、掌握几种数据解析阅读全文

posted @ 2020-06-01 17:43 南啾阅读(170) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要：概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据分析：指定一个起始url 基于CrawlSpider获取其他页码链接基于Rule将其他页码链接进行请求从每一个页码对应的页面源码中解析出每一个电影详情页的url 核心：检测电影详情页的url之前有没有请求过将爬取过的电影详情页的阅读全文

posted @ 2020-06-01 17:12 南啾阅读(108) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：概念：我们需要搭建一个分布式的集群，让其对一组资源进行分布联合爬取作用：提升爬取数据的效率如何实现分布式：安装一个scrapy-redis的组件原生的scrapy是不可以实现分布式爬虫的，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫 scrapy-redis组件作阅读全文

posted @ 2020-06-01 15:01 南啾阅读(142) 评论(0) 推荐(0) 编辑

CrawlSpider：类，Spider的一个子类

摘要：全站数据爬取的方法基于spider：手动请求基于CrawlSpider CrawlSpider的使用：创建一个工程 cd xxx 创建爬虫文件（Crawlspider）：指令 scrapy genspider -t crawl xxx www.xxx.com 链接提取器 LinkExtrac 阅读全文

posted @ 2020-06-01 13:10 南啾阅读(172) 评论(0) 推荐(0) 编辑

中间件

摘要：位置：middlewares.py文件中一、爬虫中间件二、下载中间件 1、位置：引擎和下载器之间 2、作用：批量拦截到整个工程中所有的请求和响应 3、拦截请求： UA伪装：写在process_request方法中 # UA池 user_agent_list = [ "Mozilla/5.0 (W 阅读全文

posted @ 2020-06-01 12:35 南啾阅读(149) 评论(0) 推荐(0) 编辑

2020年5月29日

中间件

posted @ 2020-05-29 20:15 南啾阅读(116) 评论(0) 推荐(0) 编辑

scrapy图片数据爬取之ImagesPipeline

摘要：基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？字符串：只需要基于xpath进行解析且提交管道进行持久化存储图片：xpath解析出图片src的属性值，单独的对图片地址发起请求获取图片二进制类型的数据 ImagesPipeline：只需要将img的src的属性值进行解析，提交到管道阅读全文

posted @ 2020-05-29 18:06 南啾阅读(693) 评论(0) 推荐(0) 编辑

scrapy五大核心组件

摘要：一、引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)二、调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的阅读全文

posted @ 2020-05-29 12:17 南啾阅读(181) 评论(0) 推荐(0) 编辑

基于spider的全站数据爬取

摘要：全站数据爬取就是将网站中某板块下的全部页码对应的页面进行爬取解析需求：爬取校花网中照片的名称实现方式：将所有页面的url添加到start_url列表中（不推荐）自行手动的进行请求发送（推荐）手动请求发送 yield scrapy.Request(url=new_url,callback=s 阅读全文

posted @ 2020-05-29 12:02 南啾阅读(188) 评论(0) 推荐(0) 编辑

南啾

公告