GaussDB火焰图分析

问题描述

CPU利用率是衡量系统负载和健康度的重要指标之一，系统在运行过程中时常发生CPU利用率高的情况。在分析性能问题时，可通过火焰图查看CPU耗时，了解瓶颈在哪里。

问题现象

部分sql执行速度不符合预期。

告警

慢sql告警。
cpu使用率高告警。
数据库整体运行慢。

业务影响

业务性能差。

原因分析

函数存在性能问题。

处理方法

所需工具：stackcollapse-perf.pl、flamegraph.pl。注意权限修改。

登录主DN节点，查看耗CPU高的进程，查看进程号。
```
top
```
参数说明：
- %us (usr/user)：用户空间占用CPU的百分比。
- %sy (system)：内核空间占用CPU的百分比。
- %ni (nice)：改变过优先级的进程占用CPU的百分比。
- %id (idle)：空闲CPU百分比。
- %wa (iowait)：IO等待占用CPU的百分比（实际CPU并未工作）。
- %hi (hardware interrupts)：硬中断（Hardware IRQ）占用CPU的百分比。
- %si (software interrupts)：软中断（Software Interrupts）占用CPU的百分比。
- %st (steal)：Hypervisor偷取的CPU的百分比。
执行perf 命令（performance 的缩写），它是 Linux 系统原生提供的性能分析工具，会返回 CPU 正在执行的函数名以及调用栈（stack）。
通常，它的执行频率是 99Hz（每秒99次），如果99次都返回同一个函数名，那就说明 CPU 这一秒钟都在执行同一个函数，可能存在性能问题。
```
perf record -e cpu-clock -g -p 28591 <主DN进程号> -- sleep 60<持续60s>
```
Ctrl+c结束执行后，在当前目录下会生成采样数据perf.data（执行时长1分钟即可）。
用perf script工具对perf.data进行解析：
```
perf script -i perf.data &> perf.unfold
```

将perf.unfold中的符号进行折叠：

./stackcollapse-perf.pl perf.unfold &> perf.folded

最后生成svg图：
```
./flamegraph.pl perf.folded > cn.svg
```
y 轴表示调用栈，每一层都是一个函数。调用栈越深，火焰就越高，顶部就是正在执行的函数，下方都是它的父函数。
x 轴表示抽样数，如果一个函数在 x 轴占据的宽度越宽，就表示它被抽到的次数多，即执行的时间长。注意，x 轴不代表时间，而是所有的调用栈合并后，按字母顺序排列的。
火焰图就是看顶层的哪个函数占据的宽度最大。只要有"平顶"（plateaus），就表示该函数可能存在性能问题。
颜色没有特殊含义，因为火焰图表示的是 CPU 的繁忙程度，所以一般选择暖色调。

详情参考: https://support.huaweicloud.com/gaussdb/index.html

posted @ 2024-11-25 16:33 xmut 阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部