vmstate 命令详解2022
vmstat 是一个查看虚拟内存(Virtual Memory)使用状况的工具,但是怎样通过 vmstat 来发现系统中的瓶颈呢?
1。 使用vmstat
使用前我们先看下命令介绍及参数定义
Usage:
vmstat [options] [delay [count]]
Options:
-a, --active active/inactive memory
-f, --forks number of forks since boot
-m, --slabs slabinfo
-n, --one-header do not redisplay header
-s, --stats event counter statistics
-d, --disk disk statistics
-D, --disk-sum summarize disk statistics
-p, --partition <dev> partition specific statistics
-S, --unit <char> define display unit
-w, --wide wide output
-t, --timestamp show timestamp
-h, --help display this help and exit
-V, --version output version information and exit
For more details see vmstat(8).
中文翻译
- -a:显示活跃和非活跃内存
-f:显示从系统启动至今的 fork 数量 。
-m:显示 slabinfo
-n:只在开始时显示一次各字段名称。
-s:显示内存相关统计信息及多种系统活动数量。
delay:刷新时间间隔。如果不指定,只显示一条结果。
count:刷新次数。如果不指定刷新次数,但指定了刷新时间间隔,这时刷新次数为无穷。
-d:显示磁盘相关统计信息。
-p:显示指定磁盘分区统计信息
-S:使用指定单位显示。参数有 k 、K 、m 、M ,分别代表 1000、1024、1000000、1048576 字节(byte)。
默认单位为 K(1024 bytes)
-V:显示 vmstat 版本信息。
2。实战
例子:每 2 秒输出一条结果
[root@k8s-master01 ~]# vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
4 0 0 485092 0 1249236 0 0 3 19 47 31 1 1 98 0 0
0 0 0 485364 0 1249364 0 0 0 34 2885 4952 1 3 97 0 0
0 0 0 485472 0 1249368 0 0 0 34 2107 3561 1 1 98 0 0
0 0 0 485316 0 1249368 0 0 0 60 1914 3326 1 1 98 0 0
结果如图,对上面输出结果含义解释:
Procs(进程):
r: 运行的和等待(CPU 时间片)运行的进程数,这个值也可以判断是否需要增加 CPU(长期大于 1)
b: 等待 IO 的进程数量,处于不可中断状态的进程数,常见的情况是由 IO 引起的
Memory(内存):
swpd: 使用虚拟内存大小,切换到交换内存上的内存(默认以 KB 为单位)
如果 swpd 的值不为 0,或者还比较大,比如超过 100M 了,但是 si, so 的值长期为 0,这种情况我们可以不用担心,不会影响系统性能。
free: 空闲的物理内存
buff: 用作缓冲的内存大小
cache: 用作缓存的内存大小,文件系统的 cache,如果 cache 的值大的时候,说明 cache 住的文件数多,如果频繁访问到的文件都能被 cache 住,那么磁盘的读 IO bi 会非常小
Swap:
si: 每秒从交换区写到内存的大小,交换内存使用,由磁盘调入内存
so: 每秒写入交换区的内存大小,交换内存使用,由内存调入磁盘
内存够用的时候,这 2 个值都是 0,如果这 2 个值长期大于 0 时,系统性能会受到影响。磁盘 IO 和CPU 资源都会被消耗
IO:
bi: 每秒读取的块数,从块设备读入的数据总量(读磁盘) (KB/s)
bo: 每秒写入的块数,写入到块设备的数据总理(写磁盘) (KB/s)
随机磁盘读写的时候,这 2 个 值越大(如超出 1M),能看到 CPU 在 IO 等待的值也会越大
system:
in: 每秒中断数,包括时钟中断。
cs: 每秒上下文切换数。
上面这 2 个值越大,会看到由内核消耗的 CPU 时间会越多
CPU(以百分比表示):
us: 用户进程消耗的 CPU 时间百分比,us 的值比较高时,说明用户进程消耗的 CPU 时间多,但是如果长期超过 50% 的使用,那么我们就该考虑优化程序算法或者进行加速了
sy: 内核进程消耗的 CPU 时间百分比,sy 的值高时,说明系统内核消耗的 CPU 资源多,这并不是良性的表现,我们应该检查原因。
id: CPU 处在空闲状态时间百分比(包括 IO 等待时间)
wa: IO 等待消耗的 CPU 时间百分比,wa 的值高时,说明 IO 等待比较严重
3。 问题处理中,如何运用?
现象:
1。)如果在processes中运行的序列(process r)是连续的大于在系统中的CPU的个数表示系统现在运行比较慢,有多数的进程等待 CPU。
2。)如果 r 的输出数大于系统中可用 CPU 个数的 4 倍的话,则系统面临着 CPU 短缺的问题,或者是 CPU 的速率过低,系统中有多数的进程在等待 CPU,造成系统中进程运行过慢。
3。)如果空闲时间(cpu id
)持续为 0 并且系统时间(cpu sy
)是用户时间的两倍(cpu us
)系统则面临着 CPU 资源的短缺。
办法建议:
1。调节 applications & servers 使得对内存和 cache 的使用更加有效。例如:先调整应用程序对 CPU 的占用情况。使得应用程序能够更有效的使用 CPU、联系DBA查看是否有SQL语句堵塞。
2。增加系统的内存或者CPU。
实战例子:
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
7 0 0 475416 0 1251908 0 0 0 441 1961 3307 0 1 98 0 0
1 0 0 475372 0 1251908 0 0 0 32 1785 3083 1 1 98 0 0
0 0 0 475744 0 1251916 0 0 0 34 1891 3259 0 1 98 0 0
2 0 0 475744 0 1251916 0 0 0 18 1935 3381 1 1 98 0 0
0 0 0 475512 0 1251920 0 0 0 29 2062 3533 2 1 97 0 0
0 0 0 475884 0 1251920 0 0 0 22 1988 3410 0 1 99 0 0
0 0 0 475760 0 1251924 0 0 0 22 1757 3040 1 1 98 0 0
0 0 0 475340 0 1251924 0 0 0 28 2001 3415 0 2 98 0 0
0 0 0 475636 0 1251924 0 0 0 16 1941 3341 1 1 98 0 0
0 0 0 475264 0 1251928 0 0 0 29 1986 3408 1 1 98 0 0
0 0 0 475264 0 1251928 0 0 0 34 2112 3490 1 1 98 0 0
0 0 0 469308 0 1252084 0 0 0 487 2973 5094 2 3 96 0 0
0 0 0 471872 0 1252004 0 0 0 212 3007 5139 1 3 96 0 0
0 0 0 472368 0 1251972 0 0 0 156 2331 3936 1 2 97 0 0
0 0 0 472632 0 1251976 0 0 0 35 2119 3705 1 2 97 0 0
0 0 0 472236 0 1251976 0 0 0 425 2018 3372 0 1 99 0 0
0 0 0 472384 0 1251980 0 0 0 17 1807 3101 1 1 98 0 0
根据观察值,我们可以得到以下结论:
1。有大量的中断(in) 和较多的上下文切换(cs)。这意味着存在多个的进程在产生对硬件设备的请求。
2。进一步显示某单个应用,user time(us)利用率低,说明应用用户进程使用较少。
3。cpu id 经常保持再98%附近,说明当前系统基本上无负载压力。