dstat,vmstat,dd,iostat,mpstat,sar,free,iopp,iotop,iodump,ethtool,mii-tool;linux性能瓶颈排查；

dstat -cdlmnpsy --tcp 5 --------->每5秒取值( system：int，csw分别为系统的中断次数（interrupt）和上下文切换（context switch）hiq，siq分别为硬中断和软中断次数)

(netstat -anlp|grep LIST|grep -v unix|wc -l)

(mii-tool --verbose em2)

(ethtool em2)

(

lspci|grep -i ether
dmesg |grep -i eth

)

netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

top -d 1-------------------->每1秒取值，最活跃的进程

vmstat 2 8----------------->每2秒取值，取8次，关注项有：r,us,id,io(bi,bo)

iostat -x 1 5 --------------->每1秒取值，取5次，关注项有：await,%util
sar 1 6 --------------------->每1秒取值，取6次，关注项有： %iowait
dd if=/dev/sdc of=test bs=64k count=4k oflag=dsync------------->

记录了4096+0 的读入
记录了4096+0 的写出
268435456字节(268 MB)已复制，3.77072 秒，71.2 MB/秒

=================

http://www.wenzizone.cn/?p=416

iostat和iowait[转]

十月 14th, 2011 发表在 linux系统本文作者：深夜的蚊子

%iowait并不能反应磁盘瓶颈

iowait实际测量的是cpu时间：
%iowait = (cpu idle time)/(all cpu time)

这个文章说明：高速cpu会造成很高的iowait值，但这并不代表磁盘是系统的瓶颈。唯一能说明磁盘是系统瓶颈的方法，就是很高的read/write时间，一般来说超过20ms，就代表了不太正常的磁盘性能。为什么是20ms呢？一般来说，一次读写就是一次寻到+一次旋转延迟+数据传输的时间。由于，现代硬盘数据传输就是几微秒或者几十微秒的事情，远远小于寻道时间2~20ms和旋转延迟4~8ms，所以只计算这两个时间就差不多了，也就是15~20ms。只要大于20ms，就必须考虑是否交给磁盘读写的次数太多，导致磁盘性能降低了。

作者的文章以AIX系统为例，使用其工具filemon来检测磁盘每次读写平均耗时。在Linux下，可以通过iostat命令还查看磁盘性能。其中的svctm一项，反应了磁盘的负载情况，如果该项大于15ms，并且util%接近100%，那就说明，磁盘现在是整个系统性能的瓶颈了。

来自：http://blog.morebits.org/?p=125

iostat来对linux硬盘IO性能进行了解

转载自：扶凯: http://www.php-oa.com/2009/02/03/iostat.html
以前一直不太会用这个参数。现在认真研究了一下iostat，因为刚好有台重要的服务器压力高,所以放上来分析一下.下面这台就是IO有压力过大的服务器

$iostat -x 1

Linux 2.6.33-fukai (fukai-laptop)          _i686_    (2 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle

5.47    0.50    8.96   48.26    0.00   36.82



Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util

sda               6.00   273.00   99.00    7.00  2240.00  2240.00    42.26     1.12   10.57   7.96  84.40

sdb               0.00     4.00    0.00  350.00     0.00  2068.00     5.91     0.55    1.58   0.54  18.80

rrqm/s:  	每秒进行 merge 的读操作数目。即 delta(rmerge)/s

wrqm/s:		每秒进行 merge 的写操作数目。即 delta(wmerge)/s

r/s:		每秒完成的读 I/O 设备次数。即 delta(rio)/s

w/s:		每秒完成的写 I/O 设备次数。即 delta(wio)/s

rsec/s:		每秒读扇区数。即 delta(rsect)/s

wsec/s:		每秒写扇区数。即 delta(wsect)/s

rkB/s:		每秒读K字节数。是 rsect/s 的一半，因为每扇区大小为512字节。(需要计算)

wkB/s:		每秒写K字节数。是 wsect/s 的一半。(需要计算)

avgrq-sz:	平均每次设备I/O操作的数据大小 (扇区)。delta(rsect+wsect)/delta(rio+wio)

avgqu-sz:	平均I/O队列长度。即 delta(aveq)/s/1000 (因为aveq的单位为毫秒)。

await:		平均每次设备I/O操作的等待时间 (毫秒)。即 delta(ruse+wuse)/delta(rio+wio)

svctm:		平均每次设备I/O操作的服务时间 (毫秒)。即 delta(use)/delta(rio+wio)

%util:		一秒中有百分之多少的时间用于 I/O 操作，或者说一秒中有多少时间 I/O 队列是非空的。即 delta(use)/s/1000 (因为use的单位为毫秒)

如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。

idle小于70% IO压力就较大了,一般读取速度有较多的wait。

同时可以结合vmstat 查看查看b参数(等待资源的进程数)和wa参数(IO等待所占用的CPU时间的百分比,高过30%时IO压力高)

另外 await 的参数也要多和 svctm 来参考。差的过高就一定有 IO 的问题。

avgqu-sz 也是个做 IO 调优时需要注意的地方，这个就是直接每次操作的数据的大小，如果次数多，但数据拿的小的话，其实 IO 也会很小.如果数据拿的大，才IO 的数据会高。也可以通过 avgqu-sz × ( r/s or w/s ) = rsec/s or wsec/s.也就是讲，读定速度是这个来决定的。

另外还可以参考

svctm 一般要小于 await (因为同时等待的请求的等待时间被重复计算了)，svctm 的大小一般和磁盘性能有关，CPU/内存的负荷也会对其有影响，请求过多也会间接导致 svctm 的增加。await 的大小一般取决于服务时间(svctm) 以及 I/O 队列的长度和 I/O 请求的发出模式。如果 svctm 比较接近 await，说明 I/O 几乎没有等待时间；如果 await 远大于 svctm，说明 I/O 队列太长，应用得到的响应时间变慢，如果响应时间超过了用户可以容许的范围，这时可以考虑更换更快的磁盘，调整内核 elevator 算法，优化应用，或者升级 CPU。

队列长度(avgqu-sz)也可作为衡量系统 I/O 负荷的指标，但由于 avgqu-sz 是按照单位时间的平均值，所以不能反映瞬间的 I/O 洪水。

别人一个不错的例子(I/O 系统 vs. 超市排队)

举一个例子，我们在超市排队 checkout 时，怎么决定该去哪个交款台呢? 首当是看排的队人数，5个人总比20人要快吧? 除了数人头，我们也常常看看前面人购买的东西多少，如果前面有个采购了一星期食品的大妈，那么可以考虑换个队排了。还有就是收银员的速度了，如果碰上了连钱都点不清楚的新手，那就有的等了。另外，时机也很重要，可能 5 分钟前还人满为患的收款台，现在已是人去楼空，这时候交款可是很爽啊，当然，前提是那过去的 5 分钟里所做的事情比排队要有意义 (不过我还没发现什么事情比排队还无聊的)。

I/O 系统也和超市排队有很多类似之处:

r/s+w/s 类似于交款人的总数

平均队列长度(avgqu-sz)类似于单位时间里平均排队人的个数

平均服务时间(svctm)类似于收银员的收款速度

平均等待时间(await)类似于平均每人的等待时间

平均I/O数据(avgrq-sz)类似于平均每人所买的东西多少

I/O 操作率 (%util)类似于收款台前有人排队的时间比例。

我们可以根据这些数据分析出 I/O 请求的模式，以及 I/O 的速度和响应时间。

下面是别人写的这个参数输出的分析

# iostat -x 1

avg-cpu: %user %nice %sys %idle

16.24 0.00 4.31 79.44

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

/dev/cciss/c0d0
0.00 44.90 1.02 27.55 8.16 579.59 4.08 289.80 20.57 22.35 78.21 5.00 14.29

上面的 iostat 输出表明秒有 28.57 次设备 I/O 操作: 总IO(io)/s = r/s(读) +w/s(写) = 1.02+27.55 = 28.57 (次/秒) 其中写操作占了主体 (w:r = 27:1)。

平均每次设备 I/O 操作只需要 5ms 就可以完成，但每个 I/O 请求却需要等上 78ms，为什么? 因为发出的 I/O 请求太多 (每秒钟约 29 个)，假设这些请求是同时发出的，那么平均等待时间可以这样计算:

平均等待时间 = 单个 I/O 服务时间 * ( 1 + 2 + … + 请求总数-1) / 请求总数

应用到上面的例子: 平均等待时间 = 5ms * (1+2+…+28)/29 = 70ms，和 iostat 给出的78ms 的平均等待时间很接近。这反过来表明 I/O 是同时发起的。

每秒发出的 I/O 请求很多 (约 29 个)，平均队列却不长 (只有 2 个左右)，这表明这 29 个请求的到来并不均匀，大部分时间 I/O 是空闲的。

一秒中有 14.29% 的时间 I/O 队列中是有请求的，也就是说，85.71% 的时间里 I/O 系统无事可做，所有 29 个 I/O 请求都在142毫秒之内处理掉了。

delta(ruse+wuse)/delta(io) = await = 78.21 => delta(ruse+wuse)/s =78.21 * delta(io)/s = 78.21*28.57 = 2232.8，表明每秒内的I/O请求总共需要等待2232.8ms。所以平均队列长度应为 2232.8ms/1000ms = 2.23，而 iostat 给出的平均队列长度 (avgqu-sz) 却为 22.35，为什么?! 因为 iostat 中有 bug，avgqu-sz 值应为 2.23，而不是 22.35。

什么是inode？

来自：http://www.dbconf.net/inode-related-issues.html

inode是Linux/Unix系文件系统[如ext]中的一个概念，当一个文件系统格式化了以后，他一定会有 inode table 与 data area 两个区块。Block 是记录文件内容数据的地区，而 inode 则是记录该文件的属性、及该文件放置在哪一个 Block 之内的信息。而且每个文件至少需要一个inode。

如何查询一个文件系统的inode使用情况：

Filesystem            Inodes   IUsed   IFree IUse% Mounted on

/dev/sda1            2366400  186064 2180336    8% /

none                   63327       1   63326    1% /dev/shm

使用df -i可以看到文件系统的inode总数、使用数、剩余量和使用百分比。

如何查看每个文件系统的inode大小：

[root@gc_server ~]# dumpe2fs -h /dev/sda1|grep node

dumpe2fs 1.35 (28-Feb-2004)

Filesystem features:      has_journal ext_attr resize_inode dir_index filetype needs_recovery sparse_super large_file

Inode count:              2366400

Free inodes:              2177496

Inodes per group:         16320

Inode blocks per group:   510

First inode:              11

Inode size:               128

Journal inode:            8

First orphan inode:       150509

Journal backup:           inode blocks

定义inode大小：

inode大小决定了一个文件系统中的inode总量，在创建文件系统的时候可以指定inode的大小，创建之后不可修改：

mkfs.ext3 -I 128 /dev/sdb5   //自定inode的大小为128byte

inode会引起什么问题：

可能出现磁盘空闲空间充足的情况下，新建文件时提示磁盘空间满。

inode数量过多由什么引起：

一般是小文件过多，如果一个文件大小比文件系统的块大小还小，如文件系统的block size为4k，而文件只有2k，则有2k的空间被浪费，也就是blocks per inode ratio过小，从而有可能会出现磁盘空间未满，而inode数消耗殆尽的情况。

如何规划：

因为inode大小一般而言略大于block大小为宜，所以：

1、当 block 越小、inodes 越多，可利用空间越多，但是大文件写入效率较差：适合文件数量多但是文件容量小的系统，例如 BBS 或者新闻群组 news 这方面的服务之系统；

2、当 block 越大、 inodes 数越少，大文件写入效率较佳，但浪费的空间较多：适合文件容量大的系统。

IO调度器

IO调度器的总体目标是希望让磁头能够总是往一个方向移动,移动到底了再往反方向走,这恰恰就是现实生活中的电梯模型,所以IO调度器也被叫做电梯.(elevator)而相应的算法也就被叫做电梯算法.而Linux中IO调度的电梯算法有好几种,一个叫做as(Anticipatory),一个叫做cfq(Complete Fairness Queueing),一个叫做deadline,还有一个叫做noop(No Operation).具体使用哪种算法我们可以在启动的时候通过内核参数elevator来指定.

另一方面我们也可以单独的为某个设备指定它所采用的IO调度算法,这就通过修改在/sys/block/sda/queue/目录下面的scheduler文件.比如我们可以先看一下我的这块硬盘:

[root@localhost ~]# cat /sys/block/sda/queue/scheduler

noop anticipatory deadline [cfq]

可以看到我们这里采用的是cfq.

Linux IO调度器相关算法介绍

IO调度器（IO Scheduler）是操作系统用来决定块设备上IO操作提交顺序的方法。存在的目的有两个，一是提高IO吞吐量，二是降低IO响应时间。然而IO吞吐量和IO响应时间往往是矛盾的，为了尽量平衡这两者，IO调度器提供了多种调度算法来适应不同的IO请求场景。其中，对数据库这种随机读写的场景最有利的算法是DEANLINE。接着我们按照从简单到复杂的顺序，迅速扫一下Linux 2.6内核提供的几种IO调度算法。

1、NOOP

NOOP算法的全写为No Operation。该算法实现了最最简单的FIFO队列，所有IO请求大致按照先来后到的顺序进行操作。之所以说“大致”，原因是NOOP在FIFO的基础上还做了相邻IO请求的合并，并不是完完全全按照先进先出的规则满足IO请求。

假设有如下的io请求序列：

100，500，101，10，56，1000

NOOP将会按照如下顺序满足：

100(101)，500，10，56，1000

2、CFQ

CFQ算法的全写为Completely Fair Queuing。该算法的特点是按照IO请求的地址进行排序，而不是按照先来后到的顺序来进行响应。

假设有如下的io请求序列：

100，500，101，10，56，1000

CFQ将会按照如下顺序满足：

100，101，500，1000，10，56

在传统的SAS盘上，磁盘寻道花去了绝大多数的IO响应时间。CFQ的出发点是对IO地址进行排序，以尽量少的磁盘旋转次数来满足尽可能多的IO请求。在CFQ算法下，SAS盘的吞吐量大大提高了。但是相比于NOOP的缺点是，先来的IO请求并不一定能被满足，可能会出现饿死的情况。

3、DEADLINE

DEADLINE在CFQ的基础上，解决了IO请求饿死的极端情况。除了CFQ本身具有的IO排序队列之外，DEADLINE额外分别为读IO和写IO提供了FIFO队列。读FIFO队列的最大等待时间为500ms，写FIFO队列的最大等待时间为5s。FIFO队列内的IO请求优先级要比CFQ队列中的高，，而读FIFO队列的优先级又比写FIFO队列的优先级高。优先级可以表示如下：

FIFO(Read) > FIFO(Write) > CFQ

4、ANTICIPATORY

CFQ和DEADLINE考虑的焦点在于满足零散IO请求上。对于连续的IO请求，比如顺序读，并没有做优化。为了满足随机IO和顺序IO混合的场景，Linux还支持ANTICIPATORY调度算法。ANTICIPATORY的在DEADLINE的基础上，为每个读IO都设置了6ms的等待时间窗口。如果在这6ms内OS收到了相邻位置的读IO请求，就可以立即满足。

IO调度器算法的选择，既取决于硬件特征，也取决于应用场景。

在传统的SAS盘上，CFQ、DEADLINE、ANTICIPATORY都是不错的选择；对于专属的数据库服务器，DEADLINE的吞吐量和响应时间都表现良好。然而在新兴的固态硬盘比如SSD、Fusion IO上，最简单的NOOP反而可能是最好的算法，因为其他三个算法的优化是基于缩短寻道时间的，而固态硬盘没有所谓的寻道时间且IO响应时间非常短。

查看和修改IO调度器的算法非常简单。假设我们要对sda进行操作，如下所示：

cat /sys/block/sda/queue/scheduler

echo “cfq” > /sys/block/sda/queue/scheduler

来自：http://www.sar4.com/2011/02/25/iostat%E5%92%8Ciowait.html

=============

http://www.centoscn.com/CentOS/2014/0827/3586.html

http://lhflinux.blog.51cto.com/1961662/518868

执行 dstat 命令的时候，默认他会收集-cpu-、-disk-、-net-、－paging-、-system-的数据，一秒钟收集一次。默认输入 dstat 等于输入了dstat -cdngy 1或dstat -a 1；

在1024×768的屏幕上正好全部显示出来

　　别名 alias dstat='dstat -cdlmnpsy'

http://opsmysql.blog.51cto.com/2238445/1202135

使用说明

1.使用语法

dstat [-afv][options..] [delay [count]]

简单执行 dstat 命令：

在不带任务参数的情况它只会collectlcpu、disk、net、paging、system这些数据, 默认是 1s 收集一次. 默认输入dstat等于输入了dstat -cdngy 1或dstat-a 1.

2.dstat 使用参数

-c, -cpu 显示CPU情况

-C 0,3,totalinclude cpu0, cpu3 and total

-d, -disk 显示磁盘情况

-D total,hdainclude hda and total

-g, -page enable pagestats

-i, -int enableinterrupt stats

-I 5,eth2 includeint5 and interrupt used by eth2

-l, -load enable loadstats

-m, -mem 显示内存情况

-n, -net 显示网络情况

-N eth1,total 可以指定网络接口

-p, -proc enableprocess stats

-s, -swap 显示swap情况

-S swap1,total 可以指定多个swap

-t, -time enable timecounter

-y, -sys enablesystem stats

-ipc 报告IPC消息队列和信号量的使用情况

-lock enable lockstats

-raw enable raw stats

-tcp enable tcp stats

-udp enable udp stats

-unix enable unixstats

-M stat1,stat2 enableexternal stats

-mods stat1,stat2

-a, -all 使用-cdngy 缺省的就是这样显示

-f, -full 使用 -C, -D, -I, -N and -S 显示

-v, -vmstat 使用-pmgdsc -D 显示

-integer show integervalues

-nocolor disablecolors (implies -noupdate)

-noheaders 只显示一次表头以后就不显示了,使用重定向写入文件时很有用

-noupdate disableintermediate updates

-output file 写入到CVS文件中

上面这些参数大多都容易理解，会点英文的同志都能看懂...........................

3. 实例

实例1: dstat sda -D3 5 #在默认显示内容的基础上只显示sda磁盘的信息

这里的 3 5 意思跟vmstat3 5 一样，意思就是每隔3秒更新一次，总共更新5次，但是这里有个小区别就是初使时要显示一次，不包括在内！

实例2：dstat-cdlmnpsy #统计显示CPU,IO,load,memory,network,process,swap,system

实例3 ：date&& dstat -tclmdny 10 #10秒监视一次

实例4：dstat -cdlmnyp-N total -D total 3 5

相关各模块显示内容跟top、vmstat、iostat等这些工具的意思相同，如cpu相关的usr代表应用空间也就是应用程序所占用的百分比，注意这里也是百分比，sys表示系统内核空间占用的百分比，idl表示CPU空闲情况,wai表示IO等待数，hiq和sig则显示服务中断有关信息。

其它就不再一一说明，都相对简单！

OK，只简单介绍到这里，这工具应用起来还算比较简单，显示也很直观。工具的使用还需靠平时多去练习、观察才能熟能生巧！

参考站点：http://wiki.51osos.com/index.php?title=Dstat&printable=yes

http://dag.wieers.com/home-made/dstat

=====================================

http://10lover10.blog.51cto.com/6266102/1087731

很多服务端开发的同事和新手运维都来和我讨论过如何诊断linux系统的性能瓶颈，今天统一说明。

查找瓶颈有一个基本的流程，不外乎借助系统工具来给系统做一个全面的检查，最后根据结果来确定问题出在哪方面。

基本流程：

1、使用top查看系统的总体运行情况；

Top的输出结果那些是很有用的信息呢？我已经全部用红线框起来了，具体如下：

：load average 这行表示系统最近1分钟，5分钟，15分钟的平均负载。那么怎样的负载才是可以接受的呢？有个简单的办法，在top命令中，再按‘1’键，会列出系统使用的cpu的数量，以负载的值不要超过cpu数量最合适。

：Tasks 这行反应的是当前系统的任务状态，主要看running和zombie进程的数量，一个健康的系统zombie（僵死进程）的数量一定是为0的，否则肯定系统已经出不小的问题了。

：Cpu（s）这行反应当前cpu的工作状态，us表示用户进程占整个cpu运行时间的百分比，sy表示系统进程的占用时间百分比；id表示cpu当前的空闲时间百分比，wa表示等待时间百分比，这几个概念是最重要的。下面有个实际的列子会再详细分析。

：Mem这行反应当前系统内存使用状况

：Swap 这行就是系统交换分区使用状态，一个性能优越的系统，交换分区使用量一定是为0的，交换分区只是一种应对在系统内存不足时的一种紧急机制，用到交换分区，说明可以考虑增加内存或者裁减现有内存数据大小了。毕竟交换分区就是硬盘，速度和内存差了太多。

2、看硬盘容量，硬盘容量如果爆满的话，那么什么诡异的情况都可能出现，这个已经非常危急了，具体的命令：df；

3、看带宽；这里如果细分的话就复杂了，比如是否有网络攻击，封包数量和特征是否异常等，zabbix是其中的佼佼者，这里我们只要看目前的带宽有没有接近网卡的上限，命令: dstat -n;

这台机器是千兆网卡，现在最大才跑到2.7mbyte/s *8 ～ 20mbit/s，远远没到，带宽这个很少有机会用到网卡峰值的80%左右，但是在业务繁忙的时候，这个也是非常重要的监控对象。

4、一个具体的实例。昨天一个新同学说应用很卡，延迟较大。内存还有很多不使用，就如上面top图显示那样，还有接近3G可以使用的内存。我等录上去看了看，使用vmstat：

可以看到过段时间就会发现有些进程处于阻塞状态，原因内是因为cpu处于等待的时间变长了，cpu是空闲的很，等着进程进来运算，而进程迟迟没有到达，这个肯定就是数据在交换分区了，存取太慢导致的卡和延迟，后来关闭了交换分区，并且整理内存之后，一切就正常了。

一个初步的系统性能诊断按照基本流程就几步，只是开始接触linux的同学不知道按照一个流程来操作。所以需要多看多动手。当然现在监控软件很多，可以监控的性能指标也很多。

本文出自 “时乘六龙” 博客，请务必保留此出处http://10lover10.blog.51cto.com/6266102/1087731

===========================

http://www.ha97.com/4512.html

一、前言

很显然从名字中我们就可以知道vmstat是一个查看虚拟内存（Virtual Memory）使用状况的工具，但是怎样通过vmstat来发现系统中的瓶颈呢？在回答这个问题前，还是让我们回顾一下Linux中关于虚拟内存相关内容。

二、虚拟内存原理

在系统中运行的每个进程都需要使用到内存，但不是每个进程都需要每时每刻使用系统分配的内存空间。当系统运行所需内存超过实际的物理内存，内核会释放某些进程所占用但未使用的部分或所有物理内存，将这部分资料存储在磁盘上直到进程下一次调用，并将释放出的内存提供给有需要的进程使用。

在Linux内存管理中，主要是通过“调页Paging”和“交换Swapping”来完成上述的内存调度。调页算法是将内存中最近不常使用的页面换到磁盘上，把活动页面保留在内存中供进程使用。交换技术是将整个进程，而不是部分页面，全部交换到磁盘上。

分页(Page)写入磁盘的过程被称作Page-Out，分页(Page)从磁盘重新回到内存的过程被称作Page-In。当内核需要一个分页时，但发现此分页不在物理内存中(因为已经被Page-Out了)，此时就发生了分页错误（Page Fault）。

当系统内核发现可运行内存变少时，就会通过Page-Out来释放一部分物理内存。经管Page-Out不是经常发生，但是如果Page-out频繁不断的发生，直到当内核管理分页的时间超过运行程式的时间时，系统效能会急剧下降。这时的系统已经运行非常慢或进入暂停状态，这种状态亦被称作thrashing(颠簸)。

三、vmstat详解

1.用法

vmstat [-a] [-n] [-S unit] [delay [ count]]
vmstat [-s] [-n] [-S unit]
vmstat [-m] [-n] [delay [ count]]
vmstat [-d] [-n] [delay [ count]]
vmstat [-p disk partition] [-n] [delay [ count]]
vmstat [-f]
vmstat [-V]

-a：显示活跃和非活跃内存

-f：显示从系统启动至今的fork数量。

-m：显示slabinfo

-n：只在开始时显示一次各字段名称。

-s：显示内存相关统计信息及多种系统活动数量。

delay：刷新时间间隔。如果不指定，只显示一条结果。

count：刷新次数。如果不指定刷新次数，但指定了刷新时间间隔，这时刷新次数为无穷。

-d：显示磁盘相关统计信息。

-p：显示指定磁盘分区统计信息

-S：使用指定单位显示。参数有 k 、K 、m 、M ，分别代表1000、1024、1000000、1048576字节（byte）。默认单位为K（1024 bytes）

-V：显示vmstat版本信息。
2.使用说明

例子1：每3秒输出一条结果

字段说明：

Procs（进程）：

r: 运行队列中进程数量，这个值也可以判断是否需要增加CPU。（长期大于1）
b: 等待IO的进程数量

Memory（内存）：

swpd: 使用虚拟内存大小

注意：如果swpd的值不为0，但是SI，SO的值长期为0，这种情况不会影响系统性能。
free: 空闲物理内存大小
buff: 用作缓冲的内存大小
cache: 用作缓存的内存大小

注意：如果cache的值大的时候，说明cache处的文件数多，如果频繁访问到的文件都能被cache处，那么磁盘的读IO bi会非常小。

Swap：

si: 每秒从交换区写到内存的大小，由磁盘调入内存
so: 每秒写入交换区的内存大小，由内存调入磁盘

注意：内存够用的时候，这2个值都是0，如果这2个值长期大于0时，系统性能会受到影响，磁盘IO和CPU资源都会被消耗。有些朋友看到空闲内存（free）很少的或接近于0时，就认为内存不够用了，不能光看这一点，还要结合si和so，如果free很少，但是si和so也很少（大多时候是0），那么不用担心，系统性能这时不会受到影响的。

IO：（现在的Linux版本块的大小为1kb）

bi: 每秒读取的块数
bo: 每秒写入的块数

注意：随机磁盘读写的时候，这2个值越大（如超出1024k)，能看到CPU在IO等待的值也会越大。

系统：

in: 每秒中断数，包括时钟中断。
cs: 每秒上下文切换数。

注意：上面2个值越大，会看到由内核消耗的CPU时间会越大。

CPU（以百分比表示）：

us: 用户进程执行时间百分比(user time)

注意： us的值比较高时，说明用户进程消耗的CPU时间多，但是如果长期超50%的使用，那么我们就该考虑优化程序算法或者进行加速。

sy: 内核系统进程执行时间百分比(system time)

注意：sy的值高时，说明系统内核消耗的CPU资源多，这并不是良性表现，我们应该检查原因。

wa: IO等待时间百分比

注意：wa的值高时，说明IO等待比较严重，这可能由于磁盘大量作随机访问造成，也有可能磁盘出现瓶颈（块操作）。

id: 空闲时间百分比

例子2：显示活跃和非活跃内存

使用-a选项显示活跃和非活跃内存时，所显示的内容除增加inact和active外，其他显示内容与例子1相同。

字段说明：

Memory（内存）：

inact: 非活跃内存大小（当使用-a选项时显示）
active: 活跃的内存大小（当使用-a选项时显示）

总结：

目前说来，对于服务器监控有用处的度量主要有：

r（运行队列）
pi（页导入）
us（用户CPU）
sy（系统CPU）
id（空闲）
注意：如果r经常大于4 ，且id经常少于40，表示cpu的负荷很重。如果bi，bo 长期不等于0，表示内存不足。

通过VMSTAT识别CPU瓶颈：
r（运行队列）展示了正在执行和等待CPU资源的任务个数。当这个值超过了CPU数目，就会出现CPU瓶颈了。

Linux下查看CPU核心数的命令：
cat /proc/cpuinfo|grep processor|wc -l

当r值超过了CPU个数，就会出现CPU瓶颈，解决办法大体几种：

1. 最简单的就是增加CPU个数和核数
2. 通过调整任务执行时间，如大任务放到系统不繁忙的情况下进行执行，进尔平衡系统任务
3. 调整已有任务的优先级

通过vmstat识别CPU满负荷：

首先需要声明一点的是，vmstat中CPU的度量是百分比的。当us＋sy的值接近100的时候，表示CPU正在接近满负荷工作。但要注意的是，CPU 满负荷工作并不能说明什么，Linux总是试图要CPU尽可能的繁忙，使得任务的吞吐量最大化。唯一能够确定CPU瓶颈的还是r（运行队列）的值。

通过vmstat识别RAM瓶颈：

数据库服务器都只有有限的RAM，出现内存争用现象是Oracle的常见问题。

首先用free查看RAM的数量：
[oracle@oracle-db02 ~]$ free
total       used       free     shared    buffers     cached
Mem:       2074924    2071112       3812          0      40616    1598656
-/+ buffers/cache:     431840    1643084
Swap:      3068404     195804    2872600

当内存的需求大于RAM的数量，服务器启动了虚拟内存机制，通过虚拟内存，可以将RAM段移到SWAP DISK的特殊磁盘段上，这样会出现虚拟内存的页导出和页导入现象，页导出并不能说明RAM瓶颈，虚拟内存系统经常会对内存段进行页导出，但页导入操作就表明了服务器需要更多的内存了，页导入需要从SWAP DISK上将内存段复制回RAM，导致服务器速度变慢。

解决的办法有几种：

1. 最简单的，加大RAM；
2. 改小SGA，使得对RAM需求减少；
3. 减少RAM的需求。（如：减少PGA）

参考文档，本人做了相关修改和说明：

http://hi.baidu.com/imlidapeng/blog/item/51872329329ab8335243c1c9.html

http://qa.taobao.com/?p=2269

永久链接 : http://www.ha97.com/4512.html

==================================

http://www.ctohome.com/FuWuQi/cf/659.html

vmstat下表io下面的bi表示读取和bo表示写入，单位是block（硬盘读写的最小单位是扇区，一个扇区是512 bytes。一次硬盘读写的数据量不会超过512 bytes，这一次读写的数据量就称为1个block。在大文件的读写操作中，基本可以按乘512来根据block计算出读写的实际数据量，误差很小。）cpu下面的wa，这个wa就是wait的缩写，代表的意思是CPU在等待硬盘读写操作的时间，用百分比表示。wait越大则机器io性能就越差。
--------------------------------------------------
关于bo和bi，到底是读还是写，也许你会看到完全相反的2种解释。这是某些理解错误导致的。正确做法，是你自己测试下。首先vmstat 1 1000运行起来，观察下bo和bi， 然后再开一个ssh窗口，运行 du -sh / 这个命令来读取输出各个目录的大小。这里几乎没有写入操作，然后你看看你的bi或bo是否有变化，对CTOHOME的服务器测试结果，明显，bi变大，说明bi是读文件

首先可以通过看硬盘型号，大致判断硬盘是什么级别的。比如你不能拿企业级的硬盘和家用PC的普通硬盘比，这样比是没有价值的。VPS也是没有测试的必要，因为VPS的性能取决于整个服务器性能，比如一个低配服务器开5个vps，和一个高配服务器开30个vps，这是没有对比性的。独立服务器检测硬盘性能如下，通过dd命令和vmstat命令，仅供技术员墨迹：

DD大致检测： dd if=/dev/zero of=test bs=64k count=4k oflag=dsync

几个独立服务器的硬盘dd结果参考（注意，dd只有在服务器完全空闲的情况下对比才有意义。如果一个服务器跑了很多应用，一个服务器空闲，那么对比结果是没有任何意义的）：

Vendor: ATA Model: WDC WD5000AAKX-0 Rev: 15.0

[root@host640.ctohome.com]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB) copied, 7.05519 seconds, 38.0 MB/s

Vendor: ATA Model: WDC WD2002FYPS-0 Rev: 04.0

[root@host30.ctohome.com]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB) copied, 4.96645 seconds, 54.0 MB/s

Vendor: WDC Model: WD1002FAEX-0 Rev: 05.0 RAID10

[root@host650.ctohome.com]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB) copied, 2.05799 seconds, 130 MB/s

IO wait 参考：

vmstat下表io下面的bi表示读取和bo表示写入，单位是block（硬盘读写的最小单位是扇区，一个扇区是512 bytes。一次硬盘读写的数据量不会超过512 bytes，这一次读写的数据量就称为1个block。在大文件的读写操作中，基本可以按乘512来根据block计算出读写的实际数据量，误差很小。）cpu下面的wa，这个wa就是wait的缩写，代表的意思是CPU在等待硬盘读写操作的时间，用百分比表示。wait越大则机器io性能就越差。

[root@host30.ctohome.com]# man vmstat | grep 'block device'
bi: Blocks received from a block device (blocks/s). 读
bo: Blocks sent to a block device (blocks/s). 写

CTOHOME提醒：关于bo和bi，到底是读还是写，也许你会看到完全相反的2种解释。这是某些理解错误导致的。正确做法，是你自己测试下。首先vmstat 1 1000运行起来，观察下bo和bi，然后再开一个ssh窗口，运行 du -sh / 这个命令来读取输出各个目录的大小。这里几乎没有写入操作，然后你看看你的bi或bo是否有变化，对CTOHOME的服务器测试结果，明显，bi变大，说明bi是读文件。

vmstat 1 1000
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
5 1   9504 230360 593980 12154304    0    0    24 1316 3170 7063 15 2 83 1 0
3 2   9504 226840 594016 12156884    0    0   180     0 3403 5827 18 3 76 3 0
2 0   9504 238936 594076 12157364    0    0   108    16 3634 2834 17 3 76 4 0
2 0   9504 246568 594084 12157356    0    0   172     0 3315 7355 12 2 84 1 0
3 0   9504 246072 594092 12157400    0    0    12     0 3489 5299 18 2 80 1 0
5 1   9504 246128 594100 12157828    0    0    60 3800 3430 2577 18 3 78 1 0
3 0   9504 243936 594164 12158428    0    0   984 2220 3624 12936 23 3 71 3 0
1 0   9504 249004 594168 12158424    0    0     4     0 3222 2282 12 2 86 0 0
0 0   9504 249192 594208 12158468    0    0    76 2060 3762 5611 9 2 88 1 0
0 0   9504 248256 594216 12158460    0    0    92     0 3471 7062 7 1 90 1 0
3 1   9504 233860 594232 12158880    0    0   144     0 3371 8783 15 2 81 2 0
1 0   9504 232720 594236 12158876    0    0   180    24 3648 19296 33 4 61 3 0
5 0   9504 228440 594260 12159408    0    0    36     0 3589 5185 18 2 79 2 0
4 0   9504 245836 594280 12159824    0    0   264 2820 3743 17055 25 5 67 2 0
2 0   9504 232392 594292 12159816    0    0    92     0 3799 4387 17 3 79 1 0
0 0   9504 248092 594324 12159784    0    0   116 1448 3395 2450 4 2 92 2 0
0 3   9504 241272 594336 12159896    0    0     4 3364 3828 3339 6 1 68 26 0
1 5   9504 245452 594360 12159872    0    0   608 1804 3851 7458 5 2 59 34 0
1 2   9504 246452 594396 12159872    0    0    20   848 3176 3440 1 1 62 36 0
4 2   9504 245352 594488 12160652    0    0   992 1012 3725 9925 16 2 54 28 0
1 0   9504 239124 594504 12161668    0    0    96     4 3283 10042 19 2 77 2 0
0 0   9504 246200 594508 12161664    0    0     0 1716 3707 2144 1 1 98 0 0
1 0   9504 229088 594508 12161664    0    0    16     0 3438 2846 12 3 84 1 0

vmstat 1 1000
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
2 0      0 217284 116704 397428    0    0 1244   327   80 272 0 0 99 1 0
0 0      0 216424 116716 397416    0    0     8   272 366 1717 0 0 99 0 0
0 0      0 216424 116716 397436    0    0     0     0 310 1590 0 0 100 0 0
0 0      0 216424 116736 397416    0    0    12   420 340 1841 0 0 100 0 0
0 0      0 216424 116744 397436    0    0     4   120 318 1684 0 0 100 0 0
0 0      0 216424 116744 397436    0    0     0     0 302 1612 0 0 100 0 0
0 0      0 216424 116756 397424    0    0     8    96 315 1667 0 0 100 0 0
0 0      0 216424 116756 397424    0    0     0     0 305 1603 0 0 100 0 0
0 0      0 216424 116760 397432    0    0     4   184 323 1738 0 0 100 0 0
0 0      0 216424 116760 397432    0    0     0   168 314 1702 0 0 100 0 0
0 0      0 216432 116764 397432    0    0     4     0 306 1636 0 0 100 0 0
0 0      0 216432 116776 397420    0    0     8    96 314 1634 0 0 100 0 0

.....

http://lihuipeng.blog.51cto.com/3064864/1183732

vmstat参数：

procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----

r b swpd free buff cache si so bi bo in cs us sy id wa

0 1 208 1685712 213052 3883248 0 0 8 7 0 0 1 1 88 10

0 2 208 1685808 213056 3883244 0 0 4 2288 1480 209 0 0 68 32

0 0 208 1685808 213060 3883240 0 0 4 2984 1515 173 0 0 76 24

0 0 208 1685888 213068 3883232 0 0 0 24 1222 138 0 0 99 0

0 0 208 1685952 213068 3883232 0 0 0 0 1079 90 0 0 100 0

0 0 208 1686032 213068 3883232 0 0 0 0 1078 77 0 0 100 0

0 0 208 1686032 213068 3883232 0 0 0 896 1077 58 0 0 99 1

-r 列表示运行和等待cpu时间片的进程数，如果长期大于1，说明cpu不足，需要增加cpu。

-us 列显示了用户方式下所花费CPU 时间的百分比。us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期大于50%，需要考虑优化用户的程序。

-sy 列显示了内核进程所花费的cpu时间的百分比。这里us + sy的参考值为80%，如果us+sy 大于 80%说明可能存在CPU不足。

-wa 列显示了IO等待所占用的CPU时间的百分比。这里wa的参考值为30%，如果wa超过30%，说明IO等待严重，这可能是磁盘大量随机访问造成的，也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要是块操作)。

-swpd 切换到内存交换区的内存数量(k表示)。如果swpd的值不为0，或者比较大，比如超过了100m，只要si、so的值长期为0，系统性能还是正常

-bi 从块设备读入数据的总量（读磁盘）（每秒kb）。

-bo 块设备写入数据的总量（写磁盘）（每秒kb）

这里我们设置的bi+bo参考值为1000，如果超过1000，而且wa值较大应该考虑均衡磁盘负载 -in 每秒产生的中断次数 -cs 每秒产生的上下文切换次数这两个值越大，内核消耗cpu时间越大 -id cpu处于空闲时间百分比

需要关注的：

-r 运行的进程比较多，系统繁忙
-bo 磁盘写的数据量大
-us 持续大于50，服务器高峰可以接受
-wa IO等待，持续大于30，说明IO等待严重
-id 持续小于50，服务器高峰可以接受

OK，现在来看实际的：（实际负载并不高，只是模拟一个解决问题的思路）

负载状况如下：

16:29:17 up 426 days, 2:00, 2 users, load average: 3.91, 4.25, 3.34

一.先通过vmstat看看状态：

[root@MySQL01 ~]# vmstat 2 10

procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----

r b swpd free buff cache si so bi bo in cs us sy id wa

0 0 208 1358752 209432 4158048 0 0 8 11 0 0 1 1 88 10

0 1 208 1358432 209432 4158568 0 0 70 0 3071 1789 2 1 95 2

0 13 208 1356256 209448 4159852 0 0 206 1326 8272 5011 6 3 74 17

0 0 208 1352568 209504 4162136 0 0 202 2582 10151 5467 7 4 37 52

0 0 208 1350904 209508 4163952 0 0 194 0 10420 6080 8 3 81 8

0 2 208 1350520 209508 4163952 0 0 20 2666 3571 644 1 0 75 24

1 0 208 1349944 209516 4164724 0 0 90 4704 4011 1008 3 2 73 23

0 2 208 1349752 209524 4164976 0 0 84 1798 5209 2341 2 1 72 24

0 0 208 1348920 209532 4166268 0 0 78 1148 4026 2031 2 2 75 22

0 0 208 1348664 209532 4166528 0 0 50 0 4474 2269 2 1 95 2

从以上的解释看：

1.cpu没问题（r，us，us+sy，id）

2.内存没问题，swpd没变化，si、so的值长期为0

3.硬盘的写操作比较频繁，wa值也偏大

二：在通过iostat看观察磁盘状况

[root@MySQL01 ~]# iostat -x 1 5

Linux 2.6.9-55.ELsmp (MySQL01) 10/26/2010