cs：表示每秒产生的上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。

注意：这两个值越大，则由内核消耗的CPU就越多

6、CPU

us：表示用户进程消耗的CPU时间百分比，us值越高，说明用户进程消耗CPU时间越多，如果长期大于50%，则需要考虑优化程序或者算法

sy：表示系统内核进程消耗的CPU时间百分比，一般来说us+sy应该小于80%，如果大于80%，说明可能存在CPU瓶颈

id：表示CPU处在空间状态的时间百分比

wa：表示IP等待所占用的CPU时间百分比，wa值越高，说明I/O等待越严重，根据经验wa的参考值为20%，如果超过20%，说明I/O等待严重，引起I/O等待的原因可能是磁盘大量随机读写造成的，也可能是磁盘或者监控器的贷款瓶颈（主要是块操作）造成的

综上所述，如果评估CPU，需要重点关注procs项的r列值和CPU想的us、sy、wa列的值

三、vmstat

1、第一个参数是采样的时间间隔数，单位是秒，第二个参数是采样的次数：vmstat 2 5

2、每2秒采集数据一直采集直到结束程序：vmsta 2

3、在vmstat命令中加入时间信息并输出到文件中：vmstat -n 5 | awk '{ printf "%s\t",$0; system("date +\"[%F %T\"]"); }' >wzx.txt

工具二：nmon（服务端）

一、安装：将安装包nmon16m_helpsystems.tar.gz上传至服务器后，解压，根据服务器的版本信息选择对应的安装包，并将选择的安装包重命名为nmon

二、启动命令：执行命令可以启动监控：./nmon -f -t -s 60 -c 600 /opt/nmon，启动后就可发现对应进程以启动

同时将会生成对应的文件：

三、破解excel，启用宏：由于对于生成的nmon文件需要利用到nmon analyser v66(1).xlsm文件中的excel宏操作，所以打开之前需要破解，KMS-VL-ALL-6.9.3-Chs.rar工具即可破解，此时需要退出杀毒软件，以管理员身份运行，

四、破解后利用excel方式打开nmon analyser v66(1).xlsm，点击“分析nmon数据”即可生成对应文件：

工具三：sar（服务端）

1、安装sar：yum -y install sysstat

2、监控CPU：

每5秒采集一次：sar -u 5

每2秒采集一次，共采集3次：sar -u 2 3

每2秒采集一次，直到12点50分，数据将保存到/tmp/cpu.log文件中：sar -u 2 -e 12:50:00 > /tmp/cpu.log

　　%usr：用户进程消耗的CPU时间百分比。

　　%nice: 运行正常进程消耗的CPU时间百分比。

　　%system：系统进程消耗的CPU时间百分比。

　　%iowait：I/O等待所占CPU时间百分比。

　　%steal：在内存紧张环境下，pagein强制对不同的页面进行的steal操作。

　　%idle：CPU空闲状态的时间百分比。

3、监控内存：

每2秒采集一次，共采集3次：sar -r 2 3

　　Kbmemfree：这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间。

　　kbmemused：这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间。

　　%memused：这个值是kbmemused和内存总量(不包括swap)的一个百分比。

　　kbbuffers和kbcached：这两个值就是free命令中的buffer和cache。

　　kbcommit：保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap)。

　　%commit：这个值是kbcommit与内存总量(包括swap)的一个百分比。

4、内存分页监控

每2秒采集一次，共采集3次：sar -B 2 3

　　pgpgin/s：表示每秒从磁盘或SWAP置换到内存的字节数(KB)。

　　pgpgout/s：表示每秒从内存置换到磁盘或SWAP的字节数(KB)。

　　fault/s：每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)。

　　majflt/s：每秒钟产生的主缺页数。

5、磁盘I/O监控：sar -b 2 3

　　tps：每秒钟物理设备的I/O 传输总量。

　　rtps：每秒钟从物理设备读入的数据总量。

　　wtps：每秒钟向物理设备写入的数据总量。

　　bread/s：每秒钟从物理设备读入的数据量，单位为块/s。

　　bwrtn/s：每秒钟向物理设备写入的数据量，单位为块/s。

6、进程队列长度和负载监控：sar -q 2 3

　　runq-sz：运行队列的长度（等待运行的进程数）。

　　plist-sz：进程列表中进程（processes）和线程（threads）的数量。

　　ldavg-1：最后1分钟的系统平均负载（System load average）。

　　ldavg-5：过去5分钟的系统平均负载。

　　ldavg-15：过去15分钟的系统平均负载。

7、系统交换活动信息监控：sar -w 2 3

　　pswpin/s：每秒系统换入的交换页面（swap page）数量。

　　pswpout/s：每秒系统换出的交换页面（swap page）数量。

8、设备使用情况监控：sar -d 2 3 -p

　　tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请求,一次传输的大小是不确定的。

　　rd_sec/s:每秒读扇区的次数。

　　wr_sec/s:每秒写扇区的次数。

　　avgrq-sz:平均每次设备I/O操作的数据大小(扇区)。

　　avgqu-sz:磁盘请求队列的平均长度。

　　await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒(1秒=1000毫秒)。

　　svctm:系统处理每次请求的平均时间,不包括在请求队列中消耗的时间。

　　%util:I/O请求占CPU的百分比,比率越大,说明越饱和。

　　1. avgqu-sz的值较低时，设备的利用率较高。

　　2. 当%util的值接近1% 时，表示设备带宽已经占满。

9、监控网卡流量：sar -n DEV 2 3

注：sar -n DEV -f /var/log/sa/sa13　　#查看某一天的流量历史，后面跟文件名

10、分析

　　要判断系统瓶颈问题，有时需几个sar命令选项结合起来

　　•怀疑CPU存在瓶颈，可用sar-u 和sar-q 等来查看

　　•怀疑内存存在瓶颈，可用sar-B、sar-r 和sar-W 等来查看

　　•怀疑I/O存在瓶颈，可用sar-b、sar-u 和sar-d 等来查看

工具四：zabbix（服务端\网页都是可以监控的）

posted on 2020-09-11 10:33 向溪行阅读(1262) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

导航