vmstate 命令详解2022

vmstat 是一个查看虚拟内存(Virtual Memory)使用状况的工具,但是怎样通过 vmstat 来发现系统中的瓶颈呢?

1。 使用vmstat

使用前我们先看下命令介绍及参数定义

Usage:
 vmstat [options] [delay [count]]

Options:
 -a, --active           active/inactive memory
 -f, --forks            number of forks since boot
 -m, --slabs            slabinfo
 -n, --one-header       do not redisplay header
 -s, --stats            event counter statistics
 -d, --disk             disk statistics
 -D, --disk-sum         summarize disk statistics
 -p, --partition <dev>  partition specific statistics
 -S, --unit <char>      define display unit
 -w, --wide             wide output
 -t, --timestamp        show timestamp

 -h, --help     display this help and exit
 -V, --version  output version information and exit

For more details see vmstat(8).

中文翻译

  • -a:显示活跃和非活跃内存
    -f:显示从系统启动至今的 fork 数量 。
    -m:显示 slabinfo
    -n:只在开始时显示一次各字段名称。
    -s:显示内存相关统计信息及多种系统活动数量。
    delay:刷新时间间隔。如果不指定,只显示一条结果。
    count:刷新次数。如果不指定刷新次数,但指定了刷新时间间隔,这时刷新次数为无穷。
    -d:显示磁盘相关统计信息。
    -p:显示指定磁盘分区统计信息
    -S:使用指定单位显示。参数有 k 、K 、m 、M ,分别代表 1000、1024、1000000、1048576 字节(byte)。
    默认单位为 K(1024 bytes)
    -V:显示 vmstat 版本信息。

2。实战

例子:每 2 秒输出一条结果

[root@k8s-master01 ~]# vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 4  0      0 485092      0 1249236    0    0     3    19   47   31  1  1 98  0  0
 0  0      0 485364      0 1249364    0    0     0    34 2885 4952  1  3 97  0  0
 0  0      0 485472      0 1249368    0    0     0    34 2107 3561  1  1 98  0  0
 0  0      0 485316      0 1249368    0    0     0    60 1914 3326  1  1 98  0  0

结果如图,对上面输出结果含义解释:

Procs(进程):
r: 运行的和等待(CPU 时间片)运行的进程数,这个值也可以判断是否需要增加 CPU(长期大于 1)
b: 等待 IO 的进程数量,处于不可中断状态的进程数,常见的情况是由 IO 引起的
Memory(内存):
swpd: 使用虚拟内存大小,切换到交换内存上的内存(默认以 KB 为单位)
如果 swpd 的值不为 0,或者还比较大,比如超过 100M 了,但是 si, so 的值长期为 0,这种情况我们可以不用担心,不会影响系统性能。
free: 空闲的物理内存
buff: 用作缓冲的内存大小
cache: 用作缓存的内存大小,文件系统的 cache,如果 cache 的值大的时候,说明 cache 住的文件数多,如果频繁访问到的文件都能被 cache 住,那么磁盘的读 IO bi 会非常小
Swap:
si: 每秒从交换区写到内存的大小,交换内存使用,由磁盘调入内存
so: 每秒写入交换区的内存大小,交换内存使用,由内存调入磁盘
内存够用的时候,这 2 个值都是 0,如果这 2 个值长期大于 0 时,系统性能会受到影响。磁盘 IO 和CPU 资源都会被消耗

IO:
bi: 每秒读取的块数,从块设备读入的数据总量(读磁盘) (KB/s)
bo: 每秒写入的块数,写入到块设备的数据总理(写磁盘) (KB/s)
随机磁盘读写的时候,这 2 个 值越大(如超出 1M),能看到 CPU 在 IO 等待的值也会越大
system:
in: 每秒中断数,包括时钟中断。
cs: 每秒上下文切换数。
上面这 2 个值越大,会看到由内核消耗的 CPU 时间会越多
CPU(以百分比表示):

us: 用户进程消耗的 CPU 时间百分比,us 的值比较高时,说明用户进程消耗的 CPU 时间多,但是如果长期超过 50% 的使用,那么我们就该考虑优化程序算法或者进行加速了
sy: 内核进程消耗的 CPU 时间百分比,sy 的值高时,说明系统内核消耗的 CPU 资源多,这并不是良性的表现,我们应该检查原因。
id: CPU 处在空闲状态时间百分比(包括 IO 等待时间)
wa: IO 等待消耗的 CPU 时间百分比,wa 的值高时,说明 IO 等待比较严重

3。 问题处理中,如何运用?

现象:
1。)如果在processes中运行的序列(process r)是连续的大于在系统中的CPU的个数表示系统现在运行比较慢,有多数的进程等待 CPU。
2。)如果 r 的输出数大于系统中可用 CPU 个数的 4 倍的话,则系统面临着 CPU 短缺的问题,或者是 CPU 的速率过低,系统中有多数的进程在等待 CPU,造成系统中进程运行过慢。
3。)如果空闲时间(cpu id)持续为 0 并且系统时间(cpu sy)是用户时间的两倍(cpu us)系统则面临着 CPU 资源的短缺。

办法建议:

1。调节 applications & servers 使得对内存和 cache 的使用更加有效。例如:先调整应用程序对 CPU 的占用情况。使得应用程序能够更有效的使用 CPU、联系DBA查看是否有SQL语句堵塞。
2。增加系统的内存或者CPU。

实战例子:

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 7  0      0 475416      0 1251908    0    0     0   441 1961 3307  0  1 98  0  0
 1  0      0 475372      0 1251908    0    0     0    32 1785 3083  1  1 98  0  0
 0  0      0 475744      0 1251916    0    0     0    34 1891 3259  0  1 98  0  0
 2  0      0 475744      0 1251916    0    0     0    18 1935 3381  1  1 98  0  0
 0  0      0 475512      0 1251920    0    0     0    29 2062 3533  2  1 97  0  0
 0  0      0 475884      0 1251920    0    0     0    22 1988 3410  0  1 99  0  0
 0  0      0 475760      0 1251924    0    0     0    22 1757 3040  1  1 98  0  0
 0  0      0 475340      0 1251924    0    0     0    28 2001 3415  0  2 98  0  0
 0  0      0 475636      0 1251924    0    0     0    16 1941 3341  1  1 98  0  0
 0  0      0 475264      0 1251928    0    0     0    29 1986 3408  1  1 98  0  0
 0  0      0 475264      0 1251928    0    0     0    34 2112 3490  1  1 98  0  0
 0  0      0 469308      0 1252084    0    0     0   487 2973 5094  2  3 96  0  0
 0  0      0 471872      0 1252004    0    0     0   212 3007 5139  1  3 96  0  0
 0  0      0 472368      0 1251972    0    0     0   156 2331 3936  1  2 97  0  0
 0  0      0 472632      0 1251976    0    0     0    35 2119 3705  1  2 97  0  0
 0  0      0 472236      0 1251976    0    0     0   425 2018 3372  0  1 99  0  0
 0  0      0 472384      0 1251980    0    0     0    17 1807 3101  1  1 98  0  0

根据观察值,我们可以得到以下结论:
1。有大量的中断(in) 和较多的上下文切换(cs)。这意味着存在多个的进程在产生对硬件设备的请求。
2。进一步显示某单个应用,user time(us)利用率低,说明应用用户进程使用较少。
3。cpu id 经常保持再98%附近,说明当前系统基本上无负载压力。

posted @ 2022-06-18 17:28  静言善思  阅读(299)  评论(0编辑  收藏  举报