Linux系统调优相关工具

一、系统调优概述

系统的运行状况： CPU -> MEM -> DISK*-> NETWORK -> 应用程序调优
分析是否有瓶颈(依据当前应用需求)
调优(把错误的调正确)

性能优化就是找到系统处理中的瓶颈以及去除这些的过程。
性能优化其实是对OS 各子系统达到一种平衡的定义，这些子系统包括:

CPU
Memory
IO
Network

这些子系统之间关系是相互彼此依赖的，任何一个高负载都会导致其他子系统出现问题。
比如:

大量的网页调入请求导致内存队列的拥塞；
网卡的大吞吐量可能导致更多的 CPU 开销；
大量的 CPU 开销又会尝试更多的内存使用请求；
大量来自内存的磁盘写请求可能导致更多的 CPU 以及 IO 问题；

所以要对一个系统进行优化,查找瓶颈来自哪个方面是关键,虽然看似是某一个子系统出现问题,其实有；

可能是别的子系统导致的。
调优就像医生看病，因此需要你对服务器所有地方都了解清楚。

当系统出了问题，运行卡，如何快速找出以下进程：

找出系统中使用CPU最多的进程？
找出系统中使用内存最多的进程？
找出系统中对磁盘读写最多的进程？
找出系统中使用网络最多的进程？

二、查看CPU负载相关工具，找出系统中使用CPU最多的进程

1、查看CPU负载相关工具

实战1：找出系统中使用CPU最多的进程？
　　uptime命令：

[root@localhost ~]# uptime
 13:57:55 up  1:43,  1 user,  load average: 0.00, 0.01, 0.05

其内容如下：

13:57:55	当前时间
up 1:43	系统运行时间，说明此服务器连续运行1小时43分钟了
1 user	当前登录用户数
load average: 0.00, 0.01, 0.05	系统负载，即任务队列的平均长度。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

例1：找出前当系统中，CPU负载过高的服务器？

服务器1： load average: 0.15, 0.08, 0.01 　　 1核
服务器2： load average: 4.15, 6.08, 6.01 　　 1核
服务器3： load average: 10.15, 10.08, 10.01 4核
答案：服务器2

如果服务器的CPU为1核心，则load average中的数字 >=3 负载过高，如果服务器的CPU为4核心，则load average中的数字 >=12 负载过高。

经验：单核心，1分钟的系统平均负载不要超过3，就可以，这是个经验值。

队列数为3时，如图：

2.找出系统中使用CPU最多的进程？

方法1：使用top命令
运行top ，找出使用CPU最多的进程，按大写的P，可以按CPU使用率来排序显示

3.按照实际使用CPU，从大到小排序显示所有进程列表

[root@localhost ~]# ps -aux --sort -pcpu | more   #按cpu降序排序
查看 
注:  -pcpu 可以显示出进程绝对的路径，方便找出木马程序运行的路径。
查看 -pcpu 帮助： 
[root@localhost ~]# man ps
#然后搜索 pcpu ，找到下面内容
　　pcpu 　　 cpu　　 utilization 　　 # cpu利用率

查看CPU信息：

[root@localhost ~]# cat /proc/cpuinfo
processor       : 0
vendor_id       : GenuineIntel
cpu family      : 6
model           : 42
model name      : Intel(R) Core(TM) i3-2348M CPU @ 2.30GHz
stepping        : 7
microcode       : 0x26
cpu MHz         : 2292.178
cache size      : 3072 KB
physical id     : 0
siblings        : 1
core id         : 0
cpu cores       : 1
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 pcid sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer xsave avx hypervisor lahf_lm epb tsc_adjust dtherm arat pln pts
bogomips        : 4585.23
clflush size    : 64
cache_alignment : 64
address sizes   : 42 bits physical, 48 bits virtual
power management:

扩展：ps 中 VIRT、RES和SHR的含意：
　　VIRT：virtual memory usage 虚拟内存

进程“需要的”虚拟内存大小，包括进程使用的库、代码、数据等；
假如进程申请100m的内存，但实际只使用了10m，那么它会增长100m，而不是实际的使用量。

　　RES：resident memory usage 常驻内存

进程当前使用的内存大小，但不包括swap out；
包含其他进程的共享；
如果申请100m的内存，实际使用10m，它只增长10m，与VIRT相反；
关于库占用内存的情况，它只统计加载的库文件所占内存大小。

　　SHR：shared memory 共享内存

除了自身进程的共享内存，也包括其他进程的共享内存；
虽然进程只使用了几个共享库的函数，但它包含了整个共享库的大小；
计算某个进程所占的物理内存大小公式：RES – SHR；
swap out后，它将会降下来。

4. CPU专用的mpstat

[root@xuegod70 ~]# rpm -qf `which mpstat`
sysstat-10.1.5-13.el7.x86_64
[root@xuegod70 ~]# mpstat
Linux 3.10.0-693.el7.x86_64 (xuegod70.cn)   07/06/2018  _x86_64_    (4 CPU)
 
11:44:54 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
11:44:54 AM  all    0.04    0.00    0.04    0.03    0.00    0.00    0.00    0.00    0.00   99.88

nice:低优先级进程使用CPU占比。nice值大于0。
sys:内核空间CPU使用占比。
iowait:CPU等待IO占比。
irq:CPU处理硬中断占比。
soft:CPU处理软中断占比。
idle:CPU空闲时间占比。
guest与steal与虚拟机有关，暂不涉及。

[root@xuegod70 ~]# mpstat -P ALL       #查看所有CPU运行状态
Linux 3.10.0-693.el7.x86_64 (xuegod70.cn)   07/06/2018  _x86_64_    (4 CPU)
 
11:53:32 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
11:53:32 AM  all    0.04    0.00    0.04    0.03    0.00    0.00    0.00    0.00    0.00   99.88
11:53:32 AM    0    0.06    0.00    0.03    0.03    0.00    0.00    0.00    0.00    0.00   99.88
11:53:32 AM    1    0.05    0.00    0.03    0.02    0.00    0.00    0.00    0.00    0.00   99.90
11:53:32 AM    2    0.03    0.00    0.07    0.05    0.00    0.00    0.00    0.00    0.00   99.85
11:53:32 AM    3    0.03    0.00    0.05    0.03    0.00    0.00    0.00    0.00    0.00   99.88
[root@xuegod70 ~]# mpstat -P ALL 5 2    #表示每5秒产生一个报告，总共产生2个
Linux 3.10.0-693.el7.x86_64 (xuegod70.cn)   07/06/2018  _x86_64_    (4 CPU)
 
11:53:37 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
11:53:42 AM  all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
11:53:42 AM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
11:53:42 AM    1    0.00    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00   99.80
11:53:42 AM    2    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
11:53:42 AM    3    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
 
11:53:42 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
11:53:47 AM  all    0.00    0.00    0.05    0.00    0.00    0.00    0.00    0.00    0.00   99.95
11:53:47 AM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
11:53:47 AM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
11:53:47 AM    2    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
11:53:47 AM    3    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
 
Average:     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
Average:     all    0.00    0.00    0.03    0.00    0.00    0.00    0.00    0.00    0.00   99.97
Average:       0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
Average:       1    0.00    0.00    0.10    0.00    0.00    0.00    0.00    0.00    0.00   99.90
Average:       2    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
Average:       3    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

三、查看Memory运行状态相关工具，找出系统中使用内存最多的进程

1、查看Memory运行状态相关工具

在CentOS6及以前的版本中，free命令输出是这样的：

[root@stu003 ~]# free
             total       used           free       shared    buffers     cached
Mem:       1785856    1749352      36504          0     137504     933196
-/+ buffers/cache:     678652    1107204
Swap:      2818040          0    2818040
 
第一行：
系统内存主要分为四部分：used(程序已使用内存)，free(空闲内存)，buffers(buffer cache)，cached(Page cache)。
系统总内存total = used + free；  buffers和cached被算在used里，因此第一行系统已使用内存used = buffers + cached + 第二行系统已使用内存used，
由于buffers和cached在系统需要时可以被回收使用，因此系统可用内存 = free + buffers + cached；
shared为程序共享的内存空间，往往为0。
第二行：
　　正因为buffers和cached在系统需要时可以被回收使用，因此buffer和cached其实可以可以算作可用内存，因此：
　　系统可用内存，即第二行的free = 第一行的free + buffers + cached。
　　系统已使用内存，即第二行的used = total - 第二行free
第三行：
　　swap内存交换空间使用情况

CentOS7及以后free命令的输出如下：

[root@xuegod70 ~]# free -h
              total        used        free      shared  buff/cache   available
Mem:           976M        105M        125M         12M        744M        659M
Swap:          1.0G        288K        1.0G
 
buffer和cached被合成一组，加入了一个available，关于此available，文档上的说明如下：
MemAvailable: An estimate of how much memory is available for starting new applications, without swapping.
即系统可用内存，之前说过由于buffer和cache可以在需要时被释放回收，系统可用内存即 free + buffer + cache，在CentOS7之后这种说法并不准确，因为并不是所有的buffer/cache空间都可以被回收。
即available = free + buffer/cache - 不可被回收内存(共享内存段、tmpfs、ramfs等)。
因此在CentOS7之后，用户不需要去计算buffer/cache，即可以看到还有多少内存可用，更加简单直观。

buffers #缓存从磁盘读出的内容
cached #缓存需要写入磁盘的内容
当物理内存不够用的时候，内核会把非活跃的数据清空。

2. 通过/proc目录，查看非活跃的内存　　

/proc文件系统下的多种文件提供的系统信息不是针对某个特定进程的，而是能够在整个系统范围的上下文中使用。可以使用的文件随系统配置的变化而变化。　

[root@xen ~]# cat /proc/meminfo
MemTotal:      1720320 kB
MemFree:        909000 kB
Buffers:         41500 kB
Cached:         385016 kB
SwapCached:          0 kB
Active:         347340 kB  活跃内存，指进程一直读写的内存空间
Inactive:       346992 kB  非活跃内存  
注：当内存不够用时，kernel总是把不活跃的内存交换到swap空间。如果inactive内存多时，加swap空间可以解决问题，而active多，则考虑加内存。
HighTotal:      981512 kB
HighFree:       318568 kB
LowTotal:       738808 kB

3.实战：找出系统中使用内存最多的进程？

方法一：使用top命令
　　运行top ，然后按下大写的M 可以按内存使用率来排序显示

方法二：按照实际使用内存，从大到小排序显示所有进程列表
[root@xuegod63 ~]# ps -aux --sort -rss | more 内存降序排序(去掉减号就是升序)
或：
[root@xuegod63 ~]# ps -aux --sort -rss > a.log

四、查看IO运行状态相关工具，找出系统中对磁盘读写最多的进程

1、I/O调优相关查看工具

查看系统块大小 RHEL 6
[root@xuegod63 ~]# tune2fs -l /dev/sda1 | grep size
Filesystem features: has_journal ext_attr resize_inode dir_index filetype needs_recovery extent flex_bg sparse_super huge_file uninit_bg dir_nlink extra_isize
　　Block size: 1024 # 为1个字节。一个扇区512字节。

RHEL 7
[root@xuegod63 ~]# xfs_growfs -l /dev/sda1 |grep bsize
data = bsize=4096 blocks=51200, imaxpct=25
naming =version 2 bsize=4096 ascii-ci=0 ftype=1
log =internal bsize=4096 blocks=855, version=2

2、找出系统中对磁盘读写最多的进程

实战：查看系统中哪个磁盘或分区最繁忙？
对于这个服务器，8块磁盘中，哪个硬盘最繁忙？哪个分区最繁忙？

通过iostat命令查看IO是否存在瓶颈

安装iostat：

[root@xuegod63 ~]# rpm -ivh /mnt/Packages/sysstat-10.1.5-12.el7.x86_64.rpm
常用参数：
-d 仅显示磁盘统计信息
-k 以K为单位显示每秒的磁盘请求数,默认单位块.
-p device | ALL 用于显示块设备及系统分区的统计信息.
 
[root@xuegod63 ~]# iostat -d -k -p /dev/sda
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn)   03/20/2017  _x86_64_    (4 CPU)
 
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               6.64       167.01        18.53     301418      33437
sda1              0.33         1.28         0.00       2317          9
sda2              6.03       164.53        18.52     296949      33428
sda3              0.18         0.80         0.00       1452          0
注：
每列含意：
kB_read/s   每秒从磁盘读入的数据量,单位为K.
kB_wrtn/s    每秒向磁盘写入的数据量,单位为K.
kB_read    读入的数据总量,单位为K.
kB_wrtn    写入的数据总量,单位为K.

测试：给磁盘写入一些内容，写入时尽可能不读磁盘？

[root@xuegod63 ~]# dd if=/dev/zero  of=a.txt bs=10M  count=1000;sync
读入的数据用/dev/zero ， /dev/zero不会读磁盘的。
sync  #把内存中的数据快速写到磁盘上。只做dd不执行sync，不容易看不出写入效果
这一招学到手：1
 
[root@xuegod63 ~]# iostat -p sda -dk
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn)   03/03/2017  _x86_64_    (4 CPU)
 
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               6.07       128.02       463.04     298190    1078577
sda1              0.25         0.99         0.00       2317          9
sda2              5.60       126.10       463.04     293721    1078568

五、查看系统整体运行状态　　

1、查看内存及系统整体运行状态：

vmstat ：命令是最常见的Linux/Unix监控工具，可以展现给定时间间隔的服务器的状态值，包括服务器的CPU使用率，MEM内存使用，MSwap虚拟内存交换情况，IO读写情况。
使用vmstat可以看到整个机器的CPU，内存，IO的使用情况，而不是单单看到各个进程的CPU使用率和内存使用率。比top命令节省资源。
注：当机器运行比较慢时，建议大家使用vmstat查看运行状态，不需要使用top，因top使用资源比较多。

[root@xuegod70 ~]# vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0    288 436628    656 454916    0    0     2    18   19   17  0  0 100  0  0

vmstat每个字段含义说明　　

类别	项目	含义	说明
Procs（进程）	r	等待执行的任务数	展示了正在执行和等待cpu资源的任务个数。当这个值超过了cpu个数，就会出现cpu瓶颈。
Procs（进程）	B	等待IO的进程数量
Memory(内存)	swpd	正在使用虚拟的内存大小，单位k
	free	空闲内存大小
	buff	已用的buff大小，对块设备的读写进行缓冲
	cache	已用的cache大小，文件系统的cache
	inact	非活跃内存大小，即被标明可回收的内存，区别于free和active	具体含义见：概念补充（当使用-a选项时显示）
	active	活跃的内存大小	具体含义见：概念补充（当使用-a选项时显示）
Swap	si	每秒从交换区写入内存的大小（单位：kb/s）
Swap	so	每秒从内存写到交换区的大小
IO	bi	每秒读取的块数（读磁盘）	现在的Linux版本块的大小为1024bytes
IO	bo	每秒写入的块数（写磁盘）
system	in	每秒中断数，包括时钟中断	这两个值越大，会看到由内核消耗的cpu时间会越多
system	cs	每秒上下文切换数	这两个值越大，会看到由内核消耗的cpu时间会越多
CPU（以百分比表示）	Us	用户进程执行消耗cpu时间(user time)	us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期超过50%的使用，那么我们就该考虑优化程序算法或其他措施了
	Sy	系统进程消耗cpu时间(system time)	sys的值过高时，说明系统内核消耗的cpu资源多，这个不是良性的表现，我们应该检查原因。
	Id	空闲时间(包括IO等待时间)
	wa	等待IO时间	Wa过高时，说明io等待比较严重，这可能是由于磁盘大量随机访问造成的，也有可能是磁盘的带宽出现瓶颈。

2、使用sar命令记录系统一段时间的运行状态

[root@xuegod63 ~]# rpm -ivh /mnt/Packages/sysstat-10.1.5-12.el7.x86_64.rpm
或：
[root@xuegod63 ~]# yum -y install sysstat

sysstat 工具包-----－可以把检查到的信息保存下来！存在/var/log/sa目录下，文件名为sa当前日期
sar 默认显示每１０分钟统计一次状态信息　（从装sysstat包开始）
sar 命令行的常用格式：
sar [options] [-A] [-o file] t [n]
在命令行中，n 和t 两个参数组合起来定义采样间隔和次数，t为采样间隔，是必须有的参数，n为采样次数，是可选的，默认值是1，-o file表示将命令结果以二进制格式存放在文件中，file 在此处不是关键字，是文件名。options 为命令行选项，sar命令的选项很多，下面只列出常用选项：
下面只列出常用选项：

-A：所有报告的总和。

- - -n：网络接口的情况。
  - -u：CPU利用率
  - -v：进程、I节点、文件和锁表状态。
  - -d：硬盘使用报告。
  - -r：没有使用的内存页面和硬盘块。
  - -g：串口I/O的情况。
  - -b：缓冲区使用情况。
  - -a：文件读写情况。
  - -c：系统调用情况。
  - -R：进程的活动情况。
  - -y：终端设备活动情况。
  - -w：系统交换活动。
  - -o 文件名：打印到屏幕并将采样结果以二进制形式存入当前目录下的文件中。
  - -f 文件名：查看之前保存的二进制文件。
-d 显示磁盘
-d 1 100 必须得指定次数
-c 每秒创建进程的个数
-i 1 10 指定时间间隔
-P 查看cpu
-r 查看内存
-w 每秒上下文切换次数

　　-o /cpu.sar 保存并显示
　　-f cpu.sar 读取

例一：使用命令行 sar -u t n
例如，每2秒采样一次，连续采样5次，观察CPU 的使用情况，并将采样结果以二进制形式存入当前目录下的文件cpu.sar中，需键入如下命令：

[root@xuegod63 ~]# sar -u 2 5 -o cpu.sar #屏幕显示以一下内容，同时内容也会写到cpu.sar中
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn) 08/04/2015 _x86_64_   (4 CPU)
 
10:44:45 PM CPU %user %nice %system %iowait %steal %idle
10:44:47 PM all 0.14   0.00   2.34   0.14   0.00   97.39
10:44:49 PM all 1.08   0.00   1.33   0.36   0.00   97.23
10:44:51 PM all 2.54   0.00   2.16   0.00   0.00   95.29
10:44:53 PM all 0.25   0.00   1.52   0.13   0.00   98.10
10:44:55 PM all 1.52   0.00   1.65   0.28   0.00   96.56
Average: all 1.11   0.00   1.79   0.18   0.00   96.92

在显示内容包括：

%usr：CPU处在用户模式下的时间百分比。
%sys：CPU处在系统模式下的时间百分比。
%wio：CPU等待输入输出完成时间的百分比。
%idle：CPU空闲时间百分比。

　　在所有的显示中，我们应主要注意%wio和%idle，%wio的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。

实例2：查看二进制文件cpu.sar中的内容

[root@xuegod63 ~]# sar -u -f cpu.sar
Linux 2.6.32-220.el6.x86_64 (xuegod63.cn) 08/04/2015 _x86_64_   (4 CPU)
 
08:21:43 PM CPU %user %nice %system %iowait %steal %idle
08:21:45 PM all  0.00  0.00  0.72    2.03    0.00  97.25
08:21:47 PM all  0.00  0.00  0.60    0.00    0.00  99.40
08:21:49 PM all  0.13  0.00  0.75    0.00    0.00  99.12
08:21:51 PM all  0.00  0.00  0.75    0.00    0.00  99.25
08:21:53 PM all  0.12  0.00  0.75    0.00    0.00  99.13
注：sar命令即可以实时采样，又可以对以往的采样结果进行查询。

3、查看sar 的计划任务：

[root@xuegod63 ~]#vim  /etc/cron.d/sysstat
# Run system activity accounting tool every 10 minutes
# Run system activity accounting tool every 10 minutes
*/10 * * * * root /usr/lib64/sa/sa1 1 1
# 0 * * * * root /usr/lib64/sa/sa1 600 6 &
# Generate a daily summary of process accounting at 23:53
53 23 * * * root /usr/lib64/sa/sa2 -A
 
生成的日志位置：
# ls /var/log/sa
 
读取日志：
[root@xuegod63 ~]# ls /var/log/sa   #只要安装sar后就会定期收集系统信息
sa04  sa07  sa18
-n：网络接口的情况。
[root@xuegod63 ~]# sar -n DEV -f  /var/log/sa/sa04  #查看网络信息

# sar -r -f /var/log/sa/sa27
# sar -b -f /var/log/sa/sa27
# sar -f /var/log/sa/sa27

动态查看：
　　sar 1 #默认显示CPU状态，1秒显示一次
　　sar 1 10
　　sar -P 0 1 10

sar最大特点是可以监控所有状态
　　sar -r 1 查看内存
　　sar -n ALL 查看所有

posted @ 2020-03-26 14:06 星火撩原阅读(301) 评论(0) 编辑收藏举报

刷新页面返回顶部

刘军军