性能测试体系建设演进之路

题记

今年是我个人从事软件测试工作的第六个年头，职业生涯至今经历了功能-接口-自动化-性能测试岗位的变迁。

18年下半年开始以团队owner的角色进行工作开展，不过当时团队技术体系建设已经步入正轨，对我个人而言，并没有太多沉淀。

19年跳槽后，有幸从零开始主导我司的性能测试体系建设工作，个人之前的很多想法得以落地实现。

这也许是除了薪资之外，对我个人而言获得的最大成就感。。。

导图

演进

基础建设

1、文档建设

前段时间知乎回答了一个问题：做技术人是不是都反感写文字类的东西，比如需求文档，需求分析等等？之前的博客也写过类似的内容：性能测试从零开始实施指南——文档建设篇。

我个人认为无论是作为个人学习笔记抑或一个Team的累积沉淀，文档建设的工作必不可少，而且是重中之重。原因如下：

1）降低“口头说明”带来的风险；

2）文档是很重要的记录和交流介质；

3）便于事前、事中、事后快速回溯追踪；

4）降低工作交接、沟通的成本，提高效率；

5）文档是一次梳理思路，review的方式；

6）文档是很重要的工作产出，自我价值诉求的重要手段（KPI）；

当然，现在有很多在线协同文档工具，如confluence、语雀（参考-工具汇总）。我司性能团队文档类目如下：

2、资源管理

这里的资源主要指压测资源，包含如下几项：

1）压测机

2）压测场景

3）压测脚本

4）压测数据

无论是平台化还是基础的命令执行，其中要考虑的因素还是很多的，比如：

脚本命名规则：以接口名命名，见名知意；

文件命名规则：以参数类型、字段名命名；

权限管理：性能测试同学可以赋予root/s-user权限；开发&业务测试同学可以赋予ops/onlyread权限；

路径管理：按照服务器的访问权限&路径命名，比如：

　　压测脚本路径：ops/perftest/script/transcation/order/ordercreate.jmx

　　压测数据路径：ops/perftest/data/transcation/order/productId.csv

PS：如上命名规则和权限路径，以jmeter命令行启动场景为准，平台化可通过配置文件统一自定义。

3、环境建设

我个人强烈建议有一套独立的压测环境，这样既能做到和业务测试互不干扰，压测的结果相对来说也更贴近真实的场景。

考虑到成本和维护等因素，压测环境建议按照具体情况来配置，主要遵循如下几条原则：

1）机器配置和生产保持一致；

2）机器数量和生产进行等比缩容（可以同配置最小化，即1台机器1个服务）；

3）网关和注册中心&配置中心可以集群部署（按照流量大小）；

4）支持自动扩容、监控告警等功能（需要基础技术建设到一定程度，比如：发布&监控平台支持）

PS：上述原则，基于微服务架构！

4、技术选型

技术选型主要考虑如下几个方面：

1）压测工具：接入成本、学习成本，重点是快速产出有效直观的价值！

2）监控工具：监控工具要考虑到性能损耗、接入难度、全面性、易用性；

3）数据工具：包括造数工具、数据存储、解析等方面；

4）分析工具：主要指的是问题分析工具，比如JDK自带的JVM Profiler；

规范制定

技术体系建设中，规范的重要性不言而喻。在性能测试中，比较重要的有如下几条规范：

1、需求发起

性能是一种需求！需求从何而来，如何发起，准入准出条件，必须优先界定好。思维导图：

2、需求评估

在性能需求评估中，主要考虑如下几点：

1）可行性（必要性）分析；

2）收益率评估（投入/产出-ROI）；

3）约定关键时间节点，如提测、deadline；

4）统一重要指标口径，明确预期指标（业务&技术）；

3、资源排期

这里的资源主要指人力资源、时间窗口以及机器资源，对于一个team来说，资源排期很重要！

4、指标度量

这里的指标并非压测数据指标，而是从部门/Team角度长期来看，需要考虑的指标，主要参考如下几点：

1）成本：测试前后，机器成本降低了多少；

2）数据：每迭代/版本，服务/链路性能提升占比；

3）效率：每个阶段，准备/部署/测试耗时降低了多少；

4）输出：团队/部门内部技术分享、性能宣讲、质量意识提升比；

5）质量：每统计区间，线上服务可用性/稳定性提升比、故障率下降比；

6）赋能：每月/季度，业务测试团队性能测试工时/需求接入/技能提升占比；

5、测试方案

测试方案的规范，可以视公司研发文化、team大小、具体情况来制定。当然，制定一个规范模板还是很有必要的，这样不仅能对工作给出一定的指导方向，还便于其他干系人能快速了解。

参考：简易性能测试方案模板

性能测试方案模板.docx

6、测试报告

同测试方案一样，测试报告的规范模板也是很有必要的，同样可以对工作给出指导方向。

参考：简易性能测试报告模板

性能测试报告模板.docx

需求周期

1、调研评估

接触了很多做性能测试的同学，聊下来，发现部分同学对性能需求的可行性评估，依然不太明白为什么这么做。如上文所说，在性能需求调研评估过程中，要注意的几点分别如下：

1）可行性分析：即业务场景、该场景的技术实现方案、用户特征等，是否有必要开展性能测试；

2）收益率评估（ROI）:开展性能测试的成本，包括时间、人力、机器环境成本，以及技术改造成本；

3）约定关键时间节点，如提测、deadline：这样做的好处是能根据测试时间窗口更好的评估测试工作的安排，知道什么时间做什么，区分优先级很重要。

4）统一指标口径，明确预期指标：比如双11大促，技术指标包括：日常线上峰值流量、机器负载、预估流量递增比率、扩容速率、consumer group、告警阈值等；

而业务指标包括：预计GVM、活动场次时间、优惠券类型数量、订单量等指标。明确这些数据后，才能更好的评估需求，进行压测方案设计。

2、需求排期

需求排期的重要性不言而喻。如何在有限的资源下尽可能提高需求的吞吐量，除了个人工作效率、团队协同能力之外，良好的资源评估和任务分配是很重要的影响因素。

3、准入准出

无论是过早还是过晚的考虑性能问题，都会是一场灾难！

过早考虑不确定性较多，太晚的话，优化成本及风险又太高，因此，选择合适的时机开始，是很重要的。

性能测试切入时机，是个玄学，需要考虑需求类型、具体场景、资源、时间、优先级等很多因素。但一般来说，还是有适合大多数场景的参考原则，列举几项供参考：

1）普适性原则-功能测试提测阶段切入；

2）特殊性原则-电商双11，最少提前2个月准备；

3）迭代性原则-二轮测试开始时切入；

4）新服务原则-prd&技术review阶段切入；

数据管理

数据管理是性能测试中很重要的一环，无论是数据量级、分布方式、是否缓存、缓存大小还是热点数据，都是需要考虑的地方。

还有一点经常被忽略的，是数据多样性引起的覆盖率问题。性能测试中，主要有如下几种类型：

1、基础数据

对于性能测试来说，基础数据一般指的是支撑业务流程正常运行所必备的数据，需要考虑如下几个方面：

1）数据量级：根据环境具体配置信息，保证数据量级和生产环境等比例，是很有必要的事情；

2）数据脱敏：从经验来说，基础数据的量级一般较大，常见的准备方式都是copy生产数据并进行脱敏；

2、测试数据

测试数据是为了满足被测业务场景的链路而所需的数据，在具体的压测准备阶段，需要根据被测链路，针对性的准备测试数据，保证场景的正常执行；

3、唯一性数据

某些比较特殊的被测场景，所需的数据是具有唯一属性的，或者一次性使用的特性。

从经验来说，这类数据，建议通过走正常的业务逻辑去生成，可以根据所需数据量大小来准备。

4、参数化数据

这类数据一般是具有可复用性的，比如productId/userId...，建议提前了解整体的业务和技术类型，准备一批量级较大的数据，避免重复工作。

问题追踪

1、问题记录

针对压测过程中发现的问题进行分类记录汇总，是很重要的一件事。优点如下：

1）问题追溯

2）工作产出

3）输出规范手册

PS：性能缺陷分类参考

缺陷类型	缺陷描述
硬件	磁盘空间
	CPU
	IO读写速率
	内存
网络	带宽
	网络波动
	CDN
	延时
	丢包
应用	JVM
应用	代码逻辑
配置	JDK版本
	底层配置
	参数配置
数据库	索引
	锁
	表空间
	慢SQL
	数据量
中间件	超时
	线程池
	缓存策略
	最大连接数
	通信实现方式
	负载均衡

2、生命周期

性能问题的生命周期，和功能BUG一样，这点技术同学应该都懂。

3、方法输出

影响性能的因素有很多，但绝大多数的性能问题都是由于配置、参数、代码逻辑的问题导致。

通过对性能问题的分类记录汇总追溯，可以总结出一些比较通用的参考规范，类似《阿里巴巴java开发手册》。

常见影响性能的因素及优化建议如下：

1）日志打印：降低日志输出level，减少IO消耗；

　　　　日志打印建议移除json序列化操作；

　　　　关闭状态机内相关日志，添加开关，大促时关闭；

　　　　出参过多情况下，封装处理，只打印需要的核心参数；

　　　　避免统一日志处理的apo拦截，建议移除所有主动拦截，需要的地方添加注解；

2）缓存使用：针对不易发生变动/变动影响较小的调用添加缓存/数据快照；

3）调用方式：对于一些聚合类的接口调用，建议串行改并行/异步调用；

4）线程配置：隔离各接口使用的线程池，防止长短尾拖垮线程池；

　　　　为了防止网络抖动，建议线程数按照（CPU可用核心数/(1-阻塞系数)*2）配置。

　　　　 worker-threads、maxConnections、ConnectTimeout、ReadTimeout等参数无需过高；

5）重复调用：微服务间的调用存在方法调用冗余情况，应尽量避免；

6）等待队列：根据等待队列长度算法来说，建议队列长度根据可接受的最长时间来配置，比如：

　　　　　　接受最长时间500ms，超过500ms还不能处理丢弃。已知正常rt25，每个线程500ms可以处理20个等待队列内的请求，

　　　　　　假若有16个线程，所以等待队列长度设置为320。队列过长无意义，无法新增非核心线程，且持续恶化处理速度。

监控体系

监控体系的构建，是一个长期迭代的过程，很考验基础技术建设的能力和程度。

除了压测本身所需的指标监控，还需要对被测服务的资源耗用（基础监控）、链路调用关系（链路监控）以及各种中间件进行监控。

1、压测监控

基于jmeter+influxdb+grafana搭建的压测监控大盘：

2、基础监控

基于Prometheus技术体系搭建的基础指标监控大盘：

3、链路监控

目前业界内链路监控工具还是蛮多的，而且开源的也不少，足以满足日常所需。比如Cat、Jaeger、Zipkin、Pinpoint、Skywalking等。

下图为Jaeger的链路追踪界面：

4、中间件监控

中间件监控，涉及的组件较多，比如redis/MQ/Kafka/DB等，上面提到的链路监控工具，实际上对中间件的监控支持还算不错，当然，各有优劣。

需要哪些指标，告警阈值如何设置，还是按需所配吧。

报表输出

报表对于一个team来说是很重要的工作量化产出！

1、轮次小结

一般来说，性能测试要执行多轮的测试验证，针对每轮结果进行直观的比较验证，无论从效率还是信息同步方面，都是很有帮助的。

2、数据归档

这里的数据归档，包含需求吞吐量、完成质量、遗留问题、压测结果等很多数据。

我们目前的做法及规划如下：

1）需求/问题归档：写入mysql，通过定时job扫描，并定期拉取数据进行不同维度的聚合计算，CC干系人。

2）压测数据归档：写入Influxdb，并提供查询API给到度量平台来聚合数据，做其他维度的报表展现。

3、性能基线

属性	说明
目的	作为衡量版本迭代的一个质量维度系数，更全面的衡量每版本的交付质量
衡量维度	1）每版本性能基准；2）长期性能变化趋势（季度/年度）
执行方式	每版本迭代对核心链路进行覆盖执行，采用回归测试策略
执行时间	二轮回归开始→发布预发之前

性能基线的建立，有以下几点需要注意：

1）定义基准：包括术语、维度、范围、指标等信息的统一说明；

2）基准数值：个人建议可接受降幅原则上≤5%；

3）跟踪方式：性能变化的跟踪方式，和上述的衡量维度类似，分短期和长期，时间区间可自定义；

4）实施说明：包含执行的时间、范围、具体方式、准入准出条件，该任务最好具体到人；

5）前置条件：核心链路梳理、初始版本基准数值确认、环境/压测机/权限分配/路径/脚本/数据；

PS：如何追踪、如何统计并聚合计算，根据team情况和具体情形自行确定！

4、容量规划

容量规划是一个长期建设的过程，目前我司也是规划中，具体如何开展，什么时候开展，有哪些方法论，业内目前并没有一个普适性的方法论。

可以参考我之前的一篇博客：浅谈容量测试与容量规划

赋能开源

我个人认为，性能是一个团队所必需具备的能力和特质，并不是少数专职性能测试同学才能做得事情。

在基础的技术建设和性能测试成熟度到一定程度时，可将部分压测相关工作&权限赋予业务测试和业务研发团队，这样不仅有助于工作上互相了解，

更能提高整个团队的能力，性能测试同学也可以抽出更多时间在稳定性保障工作上，而不是写个脚本压测下，就完事的重复工作。

更多阅读：当我们讨论性能测试时，我们在说什么？

团队沉淀

要想不断提高团队的技术、沟通协同、解决问题能力，团队升级是需要时刻考虑的。

只有不断提升团队整体的能力，个人的能力才会更快的提升。一般来说，常见的方式有如下几种：

1）技术累积：前面说的文档建设就是个很好的方式，还可以输出技术白皮书等内容；

2）内部培训：建议定期开展，一般每个月固定开展一次，包括技术、业务、经验和教训；

3）团队分享：指的是包含整个研发部门甚至整个公司的跨团队分享，还是建议积极参与；

4）公开沙龙：当团队规模，技术累积等到了一定程度，可以对外举行技术沙龙，进一步提升技术影响力的同时，也是一个很好的锻炼个人能力的方式。有输入有输出，才能有所得；

5）技术大会：每年都有很多的业内技术大会，可以挑选具有一定影响力和知名的行业大会，在团队里挑选部分优秀的同事参加，然后分享，这也是一个促进团队凝聚力的方式。

posted @ 2020-05-05 21:43 老_张阅读(4975) 评论(8) 编辑收藏举报

刷新页面返回顶部

老_张

君子藏器于身，待时而动。

性能测试体系建设演进之路

题记

导图

演进

公告