Linux:CPU使用率100%排查方法
1、CPU使用率
Linux作为一个多任务操作系统,将每个CPU的时间划分为很短的时间片,再通过调度器轮流分配给各个任务使用,因此造成多任务同时运行的错觉。
为了维护CPU时间,Linux通过事先定义的节拍率(内核中表示为HZ),触发时间中断,并使用全局变量Jiffies记录了开机以来的节拍数。每发生一次时间中断,Jiffies
的值就加1。
节拍率HZ是内核的可配选项,可以自定义配置,可通过/boot/config
来查询
$ grep 'CONFIG_HZ=' /boot/config-$(uname -r) CONFIG_HZ=1000
user
(通常缩写为us),代表用户态CPU时间。注意,它不包括下面的nice
时间,但包括了guest
时间。
nice
(通常缩写为ni),代表低优先级用户态CPU时间,也就是进程的nice值被调整为1-19之间是的CPU时间。
system
(通常缩写为sys),代表内核态CPU时间
idle
(通常缩写为id),代表空闲时间。注意,它不包括I/O等待时间(iowait
)
iowait
(通常缩写为wa),代表等待I/O的CPU时间
irq
(通常缩写为hi),代表处理硬中断的CPU时间
softirq
(通常缩写为si),代表处理软中断的CPU时间
steal
(通常缩写为st),代表当系统运行在虚拟机中的时候,被其他虚拟机占用的CPU时间
guest
(通常缩写为guest
),代表通过虚拟化运行其他操作系统的时间,也就是运行虚拟机的CPU时间
不过需要注意的是,性能分析工具给出的都是间隔一段时间的平均CPU使用率,所以要注意间隔时间的设置,特别是多个工具对比分析时,需要保证它们的间隔时间是相同的。
比如,对比一下top和ps这两个工具报告的CPU使用率,默认的结果可能不一样,因为top默认使用3秒时间间隔,而ps使用的却是进程的整个生命周期。
查看CPU使用率的方法
知道了cpu使用率的含义后,我们再来看看要怎么查看CPU使用率,说道查看cpu使用率性能工具,首先会想到ps
、top
。
top
显示了系统总体的CPU和内存使用情况,以及各个进程的资源使用情况
ps
则是显示了每个进程的资源使用情况
比如,top
的输出格式:
需要注意的,top默认显示的所有CPU的平均值,这个时候只需要按下数字1,就可以切换到每个CPU的使用率了。
继续往下看,空白行之后是进程的实时信息,每个进程都有一个%CPU列,表示进程的CPU使用率,它是用户态和内核态CPU使用率的总和,包括进程用户空间、使用的CPU、通过系统调用执行的内核空间CPU、以及在就绪队列等待运行的CPU。
分析进程的命令,比如pidstat,改命令包括:
用户态CPU使用率(%user)
内核态CPU使用率(%system)
运行虚拟机CPU使用率(%guest)
等待CPU使用率(%wait)
以及总的CPU使用率(%CPU)
通过top、ps、pidstat等工具,可以找到具体的进程,但如果还想知道是代码中的哪个函数呢?找到它,才能更高效、更有针对性地进行优化。
推荐使用系统内置的perf工具,它以性能事件采样作为基础,不仅可以分析系统的各种事件和内核性能,还可以用来分析指定应用程序的性能问题。
第一种常用方法是perf top
输出结果中,第一行包含三个数据,分别是采样数(Samples)、事件类型(Event)和事件总数量(Event count)。
第一列Overhead,是该符号的性能事件在所有采样中的比例,用百分比表示
第二列Shared,是该函数或指令所在的动态共享对象,如内核、进程名、动态链接库名等
第三列Object,是动态共享对象的类型,比如[.]表示用户空间可执行程序、或者动态链接库,而[k]则表示内核空间
第四列Symbol,是符号名,也就是函数名。当函数名未知时,用十六进制的地址表示
第二种用法,就是perf record
和perf report
。perf top
虽然实时展示了系统的性能信息,但它的缺点是并不保存数据,也就是无法用于离线或者后续的分析,而record则提供了保存数据的功能,保存数据后,使用perf report
解析展示。