性能测试知识科普(七)：监控能给你带来什么

这是性能测试知识科普的第七篇文章。

前几天关于三大模型的文章发布后，有同学在技术交流群问了我一个问题：

文中提到的QPS和TPS有什么区别，该如何在实际工作中理解这些指标的含义？

群里其他同学也发表了各自的一些观点，通过观察和交流，我发现部分测试同学对于技术指标的理解还是有些差异，归根结底的原因是知识面的广度较为缺乏，或者说对运维监控相关的知识了解不足。

这篇文章，从性能测试的角度出发，聊聊常见的一些监控技术指标以及相关的工具和作用。

说起性能测试关注的指标，可能很多同学会说tps、rt、99rt、cpu/memery使用率等等。

当然这些指标是我们日常工作中经常遇到和会关注的，但实际上在性能测试过程中，要根据不同的业务场景、技术架构以及问题表现来关注分析不同的指标。

而不是只关注自己看到的指标，填充到表格里提交一份所谓的压测报告就完事的。

下面的表格，我列举了在考虑系统性能时，不同角色关注的一些常见的监控指标，仅供参考。

上表中所列出的指标，仅代表日常工作和压测时比较关注的通用指标，但在实际的项目和场景中，需要根据具体情况去监控分析更多的指标，切记不要生搬硬套。

看完下面的监控分层和指标含义，大家应该就可以理解我上面这句话了。

下面是一个常见的微服务架构的简易模型：

软件系统为用户提供服务，其背后是由多个软硬件组合支撑的，缺一不可。

如上图所示，软件系统的复杂性导致了当它出现性能问题时，影响性能的因素可能是其中任意一个组件。

因此在性能测试中，要关注不同层级的指标。下表是不同层级我们需要关注的一些监控指标：

监控分层	常见关注指标
网络	带宽是否足够、是否有丢包延迟
网关	负载均衡
服务层	TPS/ART/99RT/Error%/Load/异常/垃圾回收/通信协议
中间件	超时/线程池/缓存命中/消费速率&消息积压/批处理
持久化存储	锁/索引/慢SQL/命中率
硬件服务器	CPU%/Memory%/Net Work/Disk IO
操作系统	Swap/内核参数/文件句柄/IO调度

你看，其实影响性能的因素很多，不同层级要关注的指标也各有不同。

很多性能测试同学在工作中往往太过于关注服务层的技术指标，其实所谓的TPS/ART/99RT只是反映了服务在当前的负载下的性能表现，这是结果。

但是为什么是这个数值？哪些因素影响了它的性能表现？如何优化性能？就需要从不同维度去分析定位，这才是性能测试中真正的价值所在。

聊完了不同视角的性能指标和监控分层后，来看看有哪些常见的监控工具。如下表：