Linux 如何查看系统负载 top uptime
2020-09-26 15:01 youxin 阅读(4049) 评论(0) 编辑 收藏 举报如何查看linux机器的平均负载
什么是机器平均负载?
特定的时间间隔内,排队等待cpu处理的进程数,排队等待的进程越多,说明cpu处理的慢,机器的平均负载约大
如何衡量当前系统是否负载过高?
如果每个cpu(可以按CPU核心的数量计算)上当前活动进程数不大于3,则系统性能良好,
不大于4,表示可以接受
如大于5,则系统性能问题严重
建议设置严格的报警值为: CPU核心的数量
比如:CPU核心数量为2,则设置报警值为2
(这样设置是合理的,因为毕竟不是每个应用都支持多CPU及多核心)
什么时候需要查看机器的负载?
当你的系统请求慢的无法忍受的时候
如何查看?常用命令:
upTime: 它显示自从上次系统重启以来,活动的用户进程数量和所谓的平均负荷指标(load average)。
11:38:54 | 当前时间 |
up 708 days | 系统运行时间 |
2 users | 当前登录用户数 |
load average: 0.08, 0.02, 0.01 | 系统负载,即任务队列的平均长度。 三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。 |
操作系统的负载状态,反映了应用程序的资源使用情况,从中能找出应用程序优化的瓶颈所在。
系统平均负载,是指处于运行或不可打扰状态的进程的平均数。\
处于运行,表示运行态,占用 CPU,或就绪态,等待 CPU 调度。\
不可打扰,表示阻塞,正在等待 I/O
在 Linux 系统中,要查看负载情况一般使用 uptime 命令(w 命令和 top 命令也行)*
一、uptime 命令
$ uptime\
16:33:56 up 69 days, 5:10, 1 user, load average: 0.14, 0.24, 0.29
以上信息的解析如下:
- 16:33:56 : 当前时间
- up 69 days, 5:10 : 系统运行了 69 天 5 小时 10 分
- 1 user : 当前有 1 个用户登录了系统 load average: 0.14, 0.24, 0.29 : 系统在过去 1 分钟内,5 分钟内,15 分钟内的平均负载
- load average: 0.14, 0.24, 0.29 : 系统在过去 1 分钟内,5 分钟内,15 分钟内的平均负载
平均负载解析
查看逻辑 CPU 核心数:
$ grep 'model name' /proc/cpuinfo | wc -l\
1\
运行结果表示,有 1 个逻辑 CPU 核心。以 1 个 CPU 核心为例,假设 CPU 每分钟最多处理 100 个进程 –
- load=0,没有进程需要 CPU
- load=0.5,CPU 处理了 50 个进程
- load=1, CPU 处理了 100 个进程,这时 CPU 已被占满,但系统还是能顺畅运作的
- load=1.5, CPU 处理了 100 个进程,还有 50 个进程正在排除等着 CPU 处理,这时,CPU 已经超负荷工作了
为了系统顺畅运行,load 值最好不要超过 1.0,这样就没有进程需要等待了,所有进程都能第一时间得到处理。\
很显然,1.0 是一个关键值,超过这个值,系统就不在最佳状态了。 一般 0.7 是一个比较理想的值。\
另外,load 值的健康状态还跟系统 CPU 核心数相关,如果 CPU 核心数为 2,那么 load 值健康值应该为 2,以此类推。 \
评价系统的负载一般采用 15 分钟内的那个平均负载值。
二、w 命令
$ w\
17:47:40 up 69 days, 6:24, 1 user, load average: 0.46, 0.26, 0.25\
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT\
lvinkim pts/0 14.18.144.2 15:55 0.00s 0.02s 0.00s w
第 1 行:与 uptime 一相同。 \
第 2 行以下,当前登录用户的列表。
三、top 命令
$ top\
top - 17:51:23 up 69 days, 6:28, 1 user, load average: 0.31, 0.30, 0.26\
Tasks: 99 total, 1 running, 98 sleeping, 0 stopped, 0 zombie\
Cpu(s): 2.3%us, 0.2%sy, 0.0%ni, 97.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st\
Mem: 1922244k total, 1737480k used, 184764k free, 208576k buffers\
Swap: 0k total, 0k used, 0k free, 466732k cached\
\
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND \
1 root 20 0 19232 1004 708 S 0.0 0.1 0:01.17 init \
2 root 20 0 0 0 0 S 0.0 0.0 0:00.01 kthreadd \
...
第 1 行:与 uptime 一相同。
第 2 行:进程数信息。
- Tasks: 99 total : 总共有 99 个进程
- 1 running : 1 个进程正在占用 CPU
- 98 sleeping : 98 个睡眠进程
- 0 stopped : 0 个停止的进程
- 0 zombie : 0 个僵尸进程
第 3 行 : CPU 使用率
- us (user): 非 nice 用户进程占用 CPU 的比率
- sy (system): 内核、内核进程占用 CPU 的比率
- ni (nice): 用户进程空间内改变过优先级的进程占用 CPU 比率
- id (idle): CPU 空闲比率,如果系统缓慢而这个值很高,说明系统慢的原因不是 CPU 负载高
- wa (iowait): CPU 等待执行 I/O 操作的时间比率,该指标可以用来排查磁盘 I/O 的问题,通常结合 wa 和 id 判断
- hi (Hardware IRQ): CPU 处理硬件中断所占时间的比率
- si (Software Interrupts): CPU 处理软件中断所占时间的比率
- st (steal): 流逝的时间,虚拟机中的其他任务所占 CPU 时间的比率
需要注意的一些情形:
- 用户进程 us 占比高,I/O 操作 wa 低:说明系统缓慢的原因在于进程占用大量 CPU,通常还会伴有教低的空闲比率 id,说明 CPU 空转时间很少。
- I/O 操作 wa 低,空闲比率 id 高:可以排除 CPU 资源瓶颈的可能。
- I/O 操作 wa 高:说明 I/O 占用了大量的 CPU 时间,需要检查交换空间的使用,交换空间位于磁盘上,性能远低于内存,当内存耗尽开始使用交换空间时,将会给性能带来严重影响,所以对于性能要求较高的服务器,一般建议关闭交换空间。另一方面,如果内存充足,但 wa 很高,说明需要检查哪个进程占用了大量的 I/O 资源。
更多负载情形,可在实际中灵活判断。
四、iostat 命令
iostat 命令可以查看系统分区的 IO 使用情况
$ iostat \
Linux 2.6.32-573.22.1.el6.x86_64 (sgs02) 01/20/2017 _x86_64_ (1 CPU)\
\
avg-cpu: %user %nice %system %iowait %steal %idle\
2.29 0.00 0.25 0.04 0.00 97.41\
\
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn\
vda 1.15 3.48 21.88 21016084 131997520
一些值得注意的 IO 指标 :
- Device : 磁盘名称
- tps : 每秒 I/O 传输请求量
- Blk_read/s : 每秒读取多少块,查看块大小可参考命令 tune2fs
- Blk_wrtn/s : 每秒写取多少块
- Blk_read : 一共读了多少块
- –Blk_wrtn : 一共写了多少块
五、iotop 命令
iotop 命令类似于 top 命令,但是显示的是各个进程的 I/O 情况,对于定位 I/O 操作较重的进程有比较大的作用。\
# iotop\
Total DISK READ: 0.00 B/s | Total DISK WRITE: 774.52 K/s\
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND \
272 be/3 root 0.00 B/s 0.00 B/s 0.00 % 4.86 % [jbd2/vda1-8]\
9072 be/4 mysql 0.00 B/s 268.71 K/s 0.00 % 0.00 % mysqld\
5058 be/4 lvinkim 0.00 B/s 3.95 K/s 0.00 % 0.00 % php-fpm: pool www\
1 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % init
可以看到不同任务的读写强度。
六、sysstat 工具
很多时候当检测到或者知道历史的高负载状况时,可能需要回放历史监控数据,这时 sar 命令就派上用场了,sar 命令同样来自 sysstat 工具包,可以记录系统的 CPU 负载、I/O 状况和内存使用记录,便于历史数据的回放。
sysstat 的配置文件在 /etc/sysconfig/sysstat 文件,历史日志的存放位置为 /var/log/sa\
统计信息都是每 10 分钟记录一次,每天的 23:59 会分割统计文件,这些操作的频率都在 /etc/cron.d/sysstat 文件配置。\
七、sar 命令
使用 sar 命令查看当天 CPU 使用:
$ sar\
Linux 2.6.32-431.23.3.el6.x86_64 (szs01) 01/20/2017 _x86_64_ (1 CPU)\
\
10:50:01 AM CPU %user %nice %system %iowait %steal %idle\
11:00:01 AM all 0.45 0.00 0.22 0.40 0.00 98.93\
Average: all 0.45 0.00 0.22 0.40 0.00 98.93
使用 sar 命令查看当天内存使用:
$ sar -r\
Linux 2.6.32-431.23.3.el6.x86_64 (szs01) 01/20/2017 _x86_64_ (1 CPU)\
\
10:50:01 AM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit\
11:00:01 AM 41292 459180 91.75 44072 164620 822392 164.32\
Average: 41292 459180 91.75 44072 164620 822392 164.32
使用 sar 命令查看当天 IO 统计记录:
$ sar -b\
Linux 2.6.32-431.23.3.el6.x86_64 (szs01) 01/20/2017 _x86_64_ (1 CPU)\
\
10:50:01 AM tps rtps wtps bread/s bwrtn/s\
11:00:01 AM 3.31 2.14 1.17 37.18 16.84\
Average: 3.31 2.14 1.17 37.18 16.84
简单说下CPU负载和CPU利用率的区别
0)load average:系统平均负载是CPU的Load,它所包含的信息不是CPU的使用率状况,而是在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息,
也就是CPU使用队列的长度的统计信息,这个数字越小越好。
1)CPU使用率:显示的是程序在运行期间实时占用的CPU百分比。
2)CPU负载:显示的是一段时间内正在使用和等待使用CPU的平均任务数。CPU使用率高,并不意味着负载就一定大。
3)CPU利用率高,并不意味着负载就一定大。
举例来说:
如果有一个程序它需要一直使用CPU的运算功能,那么此时CPU的使用率可能达到100%,但是CPU的工作负载则是趋近于
"1"
,因为CPU仅负责一个工作!
如果同时执行这样的程序两个呢?CPU的使用率还是100%,但是工作负载则变成2了。所以也就是说,当CPU的工作负载越大,代表CPU必须要在不同的工作之间
进行频繁的工作切换。
------------------------下面通过一个电话亭打电话的比喻来说明这两者之间的区别------------------------
某公用电话亭,有一个人在打电话,四个人在等待,每人限定使用电话一分钟,若有人一分钟之内没有打完电话,只能挂掉电话去排队,等待下一轮。
电话在这里就相当于CPU,而正在或等待打电话的人就相当于任务数。
在电话亭使用过程中,肯定会有人打完电话走掉,有人没有打完电话而选择重新排队,更会有新增的人在这儿排队,这个人数的变化就相当于任务数的增减。
为了统计平均负载情况,我们5分钟统计一次人数,并在第1、5、15分钟的时候对统计情况取平均值,从而形成第1、5、15分钟的平均负载。
有的人拿起电话就打,一直打完1分钟,而有的人可能前三十秒在找电话号码,或者在犹豫要不要打,后三十秒才真正在打电话。如果把电话看作CPU,人数看
作任务,我们就说前一个人(任务)的CPU利用率高,后一个人(任务)的CPU利用率低。当然, CPU并不会在前三十秒工作,后三十秒歇着,只是说,有的程
序涉及到大量的计算,所以CPU利用率就高,而有的程序牵涉到计算的部分很少,CPU利用率自然就低。但无论CPU的利用率是高是低,跟后面有多少任务在排队
没有必然关系。
在Linux下怎样让top命令启动之后就按内存使用排序?
在键盘上输入大写字母M 以达到以内存占用率大小顺序排列。另外输入大写字母P可以按CPU使用率排序。
linux 进程消耗查看
linux下获取占用CPU资源最多的10个进程,可以使用如下命令组合:
ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head
linux下获取占用内存资源最多的10个进程,可以使用如下命令组合:
ps aux|head -1;ps aux|grep -v PID|sort -rn -k +4|head多U多核CPU监控
在top基本视图中,按键盘数字“1”,可监控每个逻辑CPU的状况:
观察上图,服务器有4个逻辑CPU,实际上是1个物理CPU。
如果不按1,则在top视图里面显示的是所有cpu的平均值。
监控网络客户连接数:
netstat -n | grep tcp | grep 侦听端口 | wc -l
--numeric , -n
Show numerical addresses instead of trying to determine symbolic host, port or user names.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
2014-09-26 Android之NDK开发
2014-09-26 windows和linux共享文件
2014-09-26 Restful api测试插件Swagger-UI
2013-09-26 css 自适应布局
2013-09-26 css包含块containing block
2013-09-26 常用的Javascript设计模式
2012-09-26 google maps 控件controller