sar详解(linux/unix通用)
转载:http://www.toxingwang.com/linux-unix/2027.html
sar是linux和unix通用的性能报告工具,常用命令组合如下:
sar 命令行的常用格式:
sar [options] [-A] [-o file] t [n]
sar [ 选项 ] [ <时间间隔> [ <次数> ] ]
在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有
的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果以二进制格式
存放在文件中,file 在此处不是关键字,是文件名。options 为命令行选项,sar命令
的选项很多,下面只列出常用选项:
-A 所有的报告总和
-a 文件读,写报告
-B 报告附加的buffer cache使用情况
-b buffer cache使用情况
-c 系统调用使用报告
-d 硬盘使用报告
-h 关于buffer使用统计数字
-m IPC消息和信号灯活动
-p 调页活动
-q 运行队列和交换队列的平均长度
-R 报告进程的活动
-r 没有使用的内存页面和硬盘块
-u CPU利用率
-v 进程,i节点,文件和锁表状态
-w 系统交换活动
-y TTY设备活动
下面将举例说明。
例一:报告CPU使用情况,使用命令行 sar -u t n
例如,每60秒采样一次,连续采样5次,观察CPU 的使用情况,并将采样结果以二进制
形式存入当前目录下的文件sar.out中,需键入如下命令:
root@prddb1:/home#sar -u -o sar.out 60 5
HP-UX prddb1 B.11.31 U ia64 01/06/14
09:52:54 %usr %sys %wio %idle
09:53:54 39 9 45 7
09:54:54 47 9 38 6
09:55:54 46 9 38 7
09:56:54 44 9 40 6
09:57:54 40 8 45 7
Average 43 9 41 7
在显示内容包括:
- %usr:CPU处在用户模式下的时间百分比。
- %sys:CPU处在系统模式下的时间百分比。
- %wio:CPU等待输入输出完成时间的百分比。
- %idle:CPU空闲时间百分比。
在所有的显示中,我们应主要注意%wio和%idle,%wio的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存, 此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。
如果要查看二进制文件sar.out中的内容,则需键入如下sar命令:
# sar -u -f sar.out
可见,sar命令即可以实时采样,又可以对以往的采样结果进行查询。
例二:报告核心表状态,使用命行sar -v t n
例如,每5秒采样一次,连续采样3次,观察核心表的状态,需键入如下命令:
root@prddb1:/#sar -v 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:32:28 text-sz ov proc-sz ov inod-sz ov file-sz ov
14:32:33 N/A N/A 335/4200 0 2227/139264 0 2579/2147483647 0
14:32:38 N/A N/A 335/4200 0 2227/139264 0 2581/2147483647 0
14:32:43 N/A N/A 335/4200 0 2227/139264 0 2584/2147483647 0
显示内容包括:
- proc-sz:目前核心中正在使用或分配的进程表的表项数,由核心参数MAX-PROC控制。
- inod-sz:目前核心中正在使用或分配的i节点表的表项数,由核心参数MAX-INODE控制。
- file-sz: 目前核心中正在使用或分配的文件表的表项数,由核心参数MAX-FILE控制。
- ov:溢出出现的次数。
- Lock-sz:目前核心中正在使用或分配的记录加锁的表项数,由核心参数MAX-FLCKRE控制。
显示格式为:
实际使用表项/可以使用的表项数显示内容表示,核心使用完全正常,三个表没有出现溢出现象,核心参数不需调整,如果出现溢出时,要调整相应的核心参数,将对应的表项数加大。
例三:报告磁盘使用情况,使用命行sar -d t n
例如,每5秒采样一次,连续采样3次,报告设备使用情况,需键入如下命令:
root@prddb1:/#sar -d 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
10:17:47 device %busy avque r+w/s blks/s avwait avserv
10:17:52 disk33 0.40 0.50 1 10 0.00 5.02
disk34 100.00 0.50 824 35543 0.00 10.74
disk35 100.00 0.50 2387 86635 0.00 9.77
disk67 100.00 0.50 454 17651 0.00 14.35
10:17:57 disk33 2.01 0.50 3 35 0.48 21.28
disk34 100.00 0.50 751 34238 0.00 12.11
disk35 100.00 0.50 1799 74124 0.00 11.93
disk67 100.00 0.50 407 14429 0.00 14.71
10:18:02 disk33 2.59 0.50 4 36 0.00 7.46
disk34 100.00 0.50 634 30645 0.00 12.69
disk35 100.00 0.50 1611 74142 0.00 13.54
disk67 100.00 0.50 354 13294 0.00 14.99
Average disk33 1.66 0.50 3 27 0.18 12.49
Average disk34 100.00 0.50 736 33473 0.00 11.76
Average disk35 100.00 0.50 1933 78311 0.00 11.49
Average disk67 100.00 0.50 405 15126 0.00 14.66
显示内容包括:
- device: sar命令正在监视的块设备的名字。
- %busy: 设备忙时,传送请求所占时间的百分比。
- avque: 队列站满时,未完成请求数量的平均值。
- r+w/s: 每秒传送到设备或从设备传出的数据量。
- blks/s: 每秒传送的块数,每块512字节。
- avwait: 队列占满时传送请求等待队列空闲的平均时间。
- avserv: 完成传送请求所需平均时间(毫秒)。
在显示的内容中,disk##是硬盘的名字,%busy的值比较小,说明用于处理传送请求的有效时间太少,文件系统效率不高,一般来讲,%busy值高些,avque值低些,文件系统的效率比较高,如果%busy和avque值相对比较高,说明硬盘传输速度太慢,需调整。
例四:报告缓冲区使用情况,使用命行sar -b t n
例如,每5秒采样一次,连续采样3次,报告缓冲区的使用情况,需键入如下命令:
root@prddb1:/#sar -b 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
10:20:46 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s
10:20:51 0 5029 100 24 27 13 0 0
10:20:56 0 4335 100 21 22 6 0 0
10:21:01 0 5118 100 22 26 13 0 0
Average 0 4827 100 22 25 11 0 0
显示内容包括:
- bread/s: 每秒从硬盘读入系统缓冲区buffer的物理块数。
- lread/s: 平均每秒从系统buffer读出的逻辑块数。
- %rcache: 在buffer cache中进行逻辑读的百分比。
- bwrit/s: 平均每秒从系统buffer向磁盘所写的物理块数。
- lwrit/s: 平均每秒写到系统buffer逻辑块数。
- %wcache: 在buffer cache中进行逻辑读的百分比。
- pread/s: 平均每秒请求物理读的次数。
- pwrit/s: 平均每秒请求物理写的次数。
在显示的内容中,最重要的是%cache和%wcache两列,它们的值体现着buffer的使用效率,%rcache的值小于90或者%wcache的值低于65,应适当增加系统buffer的数量,buffer数量由核心参数NBUF控制,使%rcache达到90左右,%wcache达到80左右。但buffer参数值的多少影响I/O效率,增加buffer,应在较大内存的情况下,否则系统效率反而得不到提高。
sar命令的用法很多,有时判断一个问题,需要几个sar命令结合起来使用,比如,怀疑CPU存在瓶颈,可用sar -u 和sar -q来看,怀疑I/O存在瓶颈,可用sar -b、sar -u和sar-d来看
例五:报告文件读写情况,使用命令sar -a t n
root@prddb1:/home#sar -a 5 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
10:31:23 iget/s namei/s dirbk/s
10:31:28 0 178 2
10:31:33 0 220 3
10:31:38 0 164 4
Average 0 187 3
显示内容包括:
- iget/s 每秒由i节点项定位的文件数量
- namei/s 每秒文件系统路径查询的数量
- dirbk/s 每秒所读目录块的数量
*这些值越大,表明核心花在存取用户文件上的时间越多,它反映着一些程序和应用文件系统产生的负荷。一般地,如果iget/s与namei/s的比值大于5,并且namei/s的值大于30,则说明文件系统是低效的。这时需要检查文件系统的自由空间,看看是否自由空间过少。
例六:报告进程间的通信活动(IPC消息和信号灯活动)情况
root@prddb1:/#sar -m 4 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:16:30 msg/s sema/s
14:16:34 1384.79 906.48
14:16:38 1212.97 799.25
14:16:42 789.25 905.00
Average 1129.28 870.22
显示内容包括:
- msg/s 每秒消息操作的次数(包括发送消息的接收信息)。
- sema/s 每秒信号灯操作次数。
*信号灯和消息作为进程间通信的工具,如果在系统中运行的应用过程中没有使用它们,那么由sar命令报告的msg 和sema的值都将等于0.00。如果使用了这些工具,并且其中或者msg/s大于100,或者sema/s大于100,则表明这样的应用程序效率比较低。原因是在这样的应用程序中,大量的时间花费在进程之间的沟通上,而对保证进程本身有效的运行时间必然产生不良的影响。
例七:报告分页活动
Linux下使用如下:
[root@nagios ~]# sar -u -p 0 5 3
Linux 2.6.32-431.el6.x86_64 (nagios.aisidi.com) 2014年01月06日 _x86_64_ (2 CPU)
14时14分39秒 CPU %user %nice %system %iowait %steal %idle
14时14分44秒 all 12.47 0.00 5.68 0.00 0.00 81.85
14时14分49秒 all 61.03 0.00 1.42 0.00 0.00 37.55
14时14分54秒 all 14.39 0.00 0.75 0.00 0.00 84.85
平均时间: all 29.60 0.00 2.65 0.00 0.00 67.75
HP-UX需与-u或-q一起使用,且需要指定CPU,具体如下:
root@prddb1:/#sar -u -p 0 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:22:52 %usr %sys %wio %idle
14:22:54 70 6 17 6
14:22:56 77 5 12 5
14:22:58 68 5 15 11
Average 72 6 15 8
显示内容包括:
- vflt/s 每秒进行页面故障地址转换的数量(由于有效的页面当前不在内存中)。
- pflt/s 每秒来自由于保护错误出现的页面故障数量(由于对页面的非法存,取引起的页面故障)。
- pgfil/s 每秒通过”页—入”满足vflt/s的数量。
- rclm/s 每秒由系统恢复的有效页面的数量。有效页面被增加到自由页面队列上。
*如果vflt/s的值高于100,可能预示着对于页面系统来说,应用程序的效率不高,也可能分页参数需要调整,或者内存配置不太合适。
例八:报告进程队列(运行队列和交换队列的平均长度)情况
root@prddb1:/#sar -q 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:25:21 runq-sz %runocc swpq-sz %swpocc
14:25:23 1.2 46 0.0 0
14:25:25 1.0 42 0.0 0
14:25:27 1.2 17 0.0 0
Average 1.1 35 0.0 0
显示内容包括:
- runq-sz 准备运行的进程运行队列。
- %runocc 运行队列被占用的时间(百分比)
- swpq-sz 要被换出的进程交换队列。
- %swpocc 交换队列被占用的时间(百分比)。
*如果%runocc大于90,并且runq-sz的值大于2,则表明CPU的负载较重。其直接后果,可能使系统的响应速度降低。如果%swpocc大于20,表明交换活动频繁,将严重导致系统效率下降。解决的办法是加大内存或减少缓存区数量,从而减少交换及页—入,页—出活动。
例九:报告内存及交换区使用情况(没有使用的内存页面和硬盘块) ,hp-ux不支持
[root@nagios ~]# sar -r 2 3
Linux 2.6.32-431.el6.x86_64 (nagios.aisidi.com) 2014年01月06日 _x86_64_ (2 CPU)
14时26分26秒 kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit
14时26分28秒 559572 460564 45.15 42048 145256 702880 22.79
14时26分30秒 536416 483720 47.42 42056 145356 967436 31.36
14时26分32秒 536464 483672 47.41 42064 145356 967436 31.36
平均时间: 544151 475985 46.66 42056 145323 879251 28.51
显示内容包括:
- kbmemfree 空闲内存,以KB为单位可用量。
- kbmemused 使用的内存,以KB为单位量。这并没有考虑到内核所使用内存。
- %memused 已用内存的百分比。
- kbbuffers 内存量,以kb为单位,用于内核缓冲区。
- kbcached 内存量,以kb为单位,用于内核缓存数据。
- kbcommit 内存在需要目前的工作量kb量。
- %commit 当前工作负载所需的内存百分比(物理内存+swap)。这个数字可能会大于100%,因为内核通常over commits内存。
例十:报告系统交换活动
root@prddb1:/#sar -w 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:27:43 swpin/s bswin/s swpot/s bswot/s pswch/s
14:27:45 0.00 0.0 0.00 0.0 19280
14:27:47 0.00 0.0 0.00 0.0 6114
14:27:49 0.00 0.0 0.00 0.0 22083
Average 0.00 0.0 0.00 0.0 15836
显示内容包括:
- swpin/s 每秒从硬盘交换区传送进入内存的次数。
- bswin/s 每秒为换入而传送的块数。
- swpot/s 每秒从内存传送到硬盘交换区的次数。
- bswots 每秒为换出而传送的块数。
- pswch/s 每秒进程交换的数量。
*swpin/s,bswin/s,swpot/s和bswots描述的是与硬盘交换区相关的交换活动。交换关系到系统的效率。交换区在硬盘上对硬盘的读,写操作比内存读,写慢得多,因此,为了提高系统效率就应该设法减少交换。通常的作法就是加大内存,使交换区中进行的交换活动为零,或接近为零。如果swpot/s的值大于1,预示可能需要增加内存或减少缓冲区(减少缓冲区能够释放一部分自由内存空间)。
例十一:报告终端的I/O活动(TTY设备活动)情况
root@prddb1:/#sar -y 2 3
HP-UX prddb1 B.11.31 U ia64 01/06/14
14:28:43 rawch/s canch/s outch/s rcvin/s xmtin/s mdmin/s
14:28:45 0 0 0 0 0 0
14:28:47 0 0 0 0 0 0
14:28:49 0 0 0 0 0 0
Average 0 0 0 0 0 0
显示内容包括:
- rawch/s 每秒输入的字符数(原始队列)
- canch/s 每秒由正则队列(canonical queue)处理的输入字符数。进行正则处理过程中,可以识别出一些有特殊意义的字符。比如,(中断字符),(退出符),(退格键)等。因此,canch/s中的计数不包括这些有特殊意义的字符。
- outch/s 每秒输出的字符数。
- rcvin/s 每秒接收的硬件中断次数。
- xmtin/s 每秒发出的硬件中断次数。
- mdmin/s 每秒modem中断次数。
*应该特别说明,sar命令可以对任意终端活动进行统计,所谓任意终端,是指任意tty设备。它们可以是串行终端,主控台,伪终端等等。
*在这几个量中,modem中断次数mdmin/s应该接近0。其它没有特殊要求,但如果每发送一个字符,中断的数量就动态地增加,这表明终端线出了差错,可能是接触不好。