12.Linux进程管理

12.Linux进程管理

1.进程基本概述

1.1 程序与进程

  • 什么是程序:开发编写的源代码,封装为产品,比如
    (微信、钉钉、等等)都称为程序(硬盘);
  • 什么是进程:程序运行的过程,我们称为进程,它主
    要是用来控制计算机硬件运行我们的程序;
  • 程序与进程区别:
    • 程序:程序是数据+指令的集合,是一个静态的概
      念,同时程序可以长期存在系统中;
    • 进程:进程是程序运行的过程,是一个动态的概
      念,在进程运行的过程中,系统会有各种指标来表
      示当前运行的状态,同时进程会随着程序的终止而
      销毁,不会永久存在系统中;

1.2 进程与线程

  • 假设需要运行”360安全卫士“程序,会进行资源申请,
    首先系统申请一块内存空间、然后从硬盘中将代码读
    取到内存、最后进行其他资源的申请,这个申请资源
    的过程,我们称为进程(资源单位);

  • 当运行该进程中的"病毒扫描、漏洞查找、垃圾清
    理"等功能,通常我们会将该功能称为进程中的线程,
    线程是运行代码的过程,它是一个(执行单位),是
    进程中的更细的单位,如果该进程有多个线程,线程

    与线程之间互相不受影响,同时多线程之间可以实现
    数据共享;

    工厂流水线例子:工厂(操作系统)-->进程(车
    间)-->线程(流水线作业)

1.3 并发与并行

  • 并发:多个任务看起来是同时运行,这是一种假并行(CPU在任务中来回切换);
  • 并行:多个任务是真正的同时运行(并行必须有多核CPU才可以实现);

1.4 进程运行的状态

  • 一般来说,进程有三个状态,即就绪状态,运行状态,阻塞状态;
  • 运行态:进程占用 CPU ,并在 CPU 上运行;
  • 就绪态:进程已经具备运行条件,但需要等待 CPU 的调度才可运行;
  • 阻塞态:进程因等待某件事发生而暂时不能运行;

上述三种状态之间转换分为如下几种情况;

  • 运行-->阻塞:进程发生 I/O 操作,需等待事件,而继
    续无法执行,则进程由运行状态变为阻塞状态;
  • 阻塞-->就绪:进程所等待的事件已经完成,但没办法
    直接运行,需要进入就绪队列,等待调度;
  • 就绪-->运行:运行的进程时间片已经用完, CPU 会从
    就绪队列中选择合适的进程分配 CPU
  • 运行-->就绪:
    • 1、进程占用 CPU 的时间过长,而系统分配给该进
      程占用 CPU 的时间是有限的;
    • 2、当有更高优先级的进程要运行时,该进程需要
      让出 CPU ,由运行状态转变为就绪状态;
  • 就绪态-x->阻塞: 已经就绪了,跟阻塞毫无关系;
  • 阻塞-->运行:阻塞状态结束,它必须进入就绪队列中,然后等待cpu从队列中挑选进程分配资源;

1.5 进程的生命周期

  • 生命周期就是指一个对象的生老病死。用处很广

当父进程接收到任务调度时,会通过fock派生子进程来
处理,那么子进程会继承父进程属性。
1.子进程在处理任务代码时,父进程其实不会进入等
待,其运行过程是由linux系统进行调度的。
2.子进程在处理任务代码后,会执行退出,然后唤醒父
进程来回收子进程的资源。
3.如果子进程在处理任务代码过程中异常退出,而父进
程却没有回收子进程资源,会导致子进程虽然运行实体
已经消失,但仍然在内核的进程表中占据一条记录,长
期下去对于系统资源是一个浪费。(僵尸进程)
4.如果子进程在处理任务过程中,父进程退出了,子进
程没有退出,那么这些子进程就没有父进程来管理了,
由系统的system进程管理。(孤儿进程)
PS: 每个进程都父进程的PPID,子进程则叫PID。

2. 进程运行状态监控

  • 程序在运行后,我们需要了解进程的运行状态。查看进程的状态分为:
    • 静态查看
    • 动态查看

2.1 静态监控进程

  • ps -aux 常用组合,查看进程 用户、PID、占用cpu百
    分比、占用内存百分比、状态、执行的命令等

2.1.1 每列指标详解

  • USER :启动进程的用户
  • PID :进程运行的 ID 号
  • %CPU :进程占用 CPU 百分比
  • %MEM :进程占用内存百分比
  • VSZ :进程占用虚拟内存大小 (单位KB)
  • RSS :进程占用物理内存实际大小 (单位KB)
  • TTY :进程是由哪个终端运行启动的 tty1、pts/0 等? 表示内核程序与终端无关
  • STAT :进程运行过程中的状态 man ps (/STATE)
  • START :进程的启动时间
  • TIME :进程占用 CPU 的总时间(为0表示还没超过秒)
  • COMMAND :程序的运行指令, [ ] 属于内核态的进程。 没有 [ ] 属于用户态进程。

2.1.2 查看进程ppid

ppid 指定的是父进程;

[root@node ~]# ps -ef |grep sshd
root    1425    1  0 7月19 ?   
00:00:00 /usr/sbin/sshd -D
root    32067  1425  0 7月19 ?   
00:00:02 sshd: root@pts/1
root    52604  1425  0 15:53 ?   
00:00:01 sshd: root@pts/0

2.1.3 查看进程树结构

通过 pstree 可以查看进程树状结构

-p :选项指定查看某个进程的树状结构

[root@node ~]# pstree -p 1425
sshd(1425)─┬─sshd(32067)───bash(32069)
    
└─sshd(52604)───bash(52606)─┬─pstree(67809)
                  
├─sleep(67440)
                  
└─sleep(67506)

2.1.4 查看用户进程

1.使用普通用户运行进程

[root@node ~]# su - oldxu -c "sleep 10000" &
[3] 68021

2.使用 pgrep 过滤用户运行进程名称,以及进程ID

[root@node ~]# pgrep -l -u oldxu
68022 sleep
# -a:表示列出进程pid以及详细命令
[root@node ~]# pgrep -a -u oldxu
68022 sleep 10000

2.1.5 STAT运行状态

  • STAT 状态的 S、Ss、S+、R、R+、S+ 等等,都是什么
    意思?

STAT基本状态 描述 STAT状态+符号 描述
R 进程运行 s 进程是控制进程,Ss是父进程
S 就绪状态 < 进程运行在高优先级上S<
T 进程被暂停 N 进程运行在低优先级上SN
D 不可中断进程 + 当前进程运行在前台,R+
Z 僵尸进程 l 进程是多线程的,Sl表示进程是以线程方式运行

2.2 进程状态模拟实践

2.2.1 运行进程状态R

1.编写如下脚本

[root@node ~]# cat > while.sh <<EOF
while true;do ((1+1));done
EOF

2.运行该脚本,检查运行状态是否为 R

[root@node ~]# sh while.sh
[root@node ~]# ps -aux |grep while
root    58784 93.8  0.2 113172  1192
pts/0  R+  13:30  0:08 sh while.sh

2.2.2 暂停进程状态T

1.在终端1上运行 vim

[root@node ~]# vim new_file

2.在终端2上运行 ps 命令查看状态

[root@node ~]# ps aux|grep new_file  # S
表示睡眠模式,+表示前台运行
root    58118  0.4  0.2 151788  5320
pts/1  S+  22:11  0:00 new_file
root    58120  0.0  0.0 112720  996
pts/0  R+  22:12  0:00 grep --
color=auto new_file
# 在终端1上挂起vim命令,按下:ctrl+z

3.回到终端2再次运行 ps 命令查看状态

[root@node ~]# ps aux|grep new_file  # T表示停止状态
root    58118  0.1  0.2 151788  5320
pts/1  T   22:11  0:00 vim new_file

2.2.3 不可中断进程D

1.使用 tar 打包文件时,可以通过终端不断查看状态,
由 S+,R+、D+

[root@node ~]# tar -czf etc.tar.gz /etc/
/usr/ /var/
[root@node ~]# ps aux|grep tar|grep -v
grep
root    58467  5.5  0.2 127924  5456
pts/1  R+  22:22  0:04 tar -czf
etc.tar.gz /etc/
[root@node ~]# ps aux|grep tar|grep -v
grep
root    58467  5.5  0.2 127088  4708
pts/1  S+  22:22  0:03 tar -czf
etc.tar.gz /etc/
[root@node ~]# ps aux|grep tar|grep -v
grep
root    58467  5.6  0.2 127232  4708
pts/1  D+  22:22  0:03 tar -czf
etc.tar.gz /etc/

2.使用 dd 命令创建磁盘空间,状态会由 R+、D+

[root@node ~]# dd if=/dev/zero
of=/dev/null bs=1000M count=100
# 观察状态
[root@oldxu ~]# ps -aux |grep "/dev/null"
root 5813 40 71.7 113 344 pts/0 D+ 13:32
0:13 dd if=/dev/zero of=/dev/null bs=1000M
count=100

2.2.4 实践僵尸进程Z

1.编写 Python 脚本,模拟僵尸进程;

[root@node ~]# cat zombie.py
#!/usr/bin/env python
# encoding: utf-8
from multiprocessing import Process
import time
import os
def task():
 print("子进程ID --> %s" % os.getpid())
 time.sleep(10)
if __name__ == "__main__":
  for i in range(3):
    p=Process(target=task)
   p.start()
   print("父进程ID --> %s" % os.getpid())
 time.sleep(100000)

2.运行 python 脚本

[root@node ~]# python zombile.py
父进程ID --> 59220
子进程ID --> 59221
子进程ID --> 59222
子进程ID --> 59223

3.通过 ps aux 查看进程状态;

[root@node ~]# ps -aux |grep python
root    59220  0.0  1.2 151200  5772
pts/0  S+  13:36  0:00 python
zombile.py
root    59221  0.0  0.0    0   0
pts/0  Z+  13:36  0:00 [python]
<defunct>
root    59222  0.0  0.0    0   0
pts/0  Z+  13:36  0:00 [python]
<defunct>
root    59223  0.0  0.0    0   0
pts/0  Z+  13:36  0:00 [python]
<defunct>

4.僵尸进程无法杀死,只能通过杀父进程,从而回收掉
僵尸进程

# kill僵尸进程没有反应,所以直接kill父进程
[root@node ~]# kill -9 59220

2.2.5 实践孤儿进程

1.在窗口1执行如下命令

[root@node ~]# ping www.baidu.com
&>/dev/null &
[1] 52428

2.在窗口2过滤 ping 进程,杀死其父进程

[root@node ~]# ps -ef | grep ping | grep -
v grep
root    52428  52407  0 20:45 pts/0 
 00:00:00 ping www.baidu.com
# 强制杀死父进程
[root@node ~]# kill -9 52407

3.再次查看进程,会发现该进程被系统最高进程 pid 1接管

# 孤儿进程被PID为1的父进程接管
[root@node ~]# ps -ef | grep ping
root    52428    1  0 20:45 ?   
 00:00:00 ping 10.0.0.2
# 直接kill进程即可关闭
[root@node ~]# kill 52428

2.2.6 实践多线程SI

1.使用 python 脚本编写多线程程序

[root@node ~]# cat multi_thread.py
#!/usr/bin/env python
from threading import Thread
import time
import os
def task():
 time.sleep(200)
if __name__  == "__main__":
 print(os.getpid())
  for i in range(10):
    s=Thread(target=task)
   s.start()

2.运行 python 脚本程序

[root@node ~]# python multi_thread.py
59691

3.检查 python 程序状态

# sl表示多线程
[root@node ~]# ps aux|grep python
root    59691  0.0  1.0 740280  5000
pts/1  Sl+  13:43  0:00 python
multi_thread.py
# 通过pstree查看线程
[root@node ~]# pstree -p 59691
python(59691)─┬─{python}(59692)
      ├─{python}(59693)
      ├─{python}(59694)
      ├─{python}(59695)
      ├─{python}(59696)
      ├─{python}(59697)
      ├─{python}(59698)
      ├─{python}(59699)
      ├─{python}(59700)
      └─{python}(59701)

2.2.7 高优先级进程S<

1.执行如下命令,让进程在高优先级下运行

[root@node ~]# nice -n -20 sleep 30000 &
[1] 67440

2.查看进程状态,看是否在高优先级下运行

[root@node ~]# ps -aux |grep sleep
root    67440  0.0  0.0 107948  352
pts/0  S<  20:20  0:00 sleep 30000

2.2.8 低优先级进程SN

1.执行如下命令,让进程在低优先级下运行

[root@node ~]# nice -n 20 sleep 50000 &
[2] 67506

2.查看进程状态,看是否在低优先级下运行

[root@node ~]# ps -aux |grep sleep
root    67506  0.0  0.0 107948  352
pts/0  SN  20:21  0:00 sleep 50000

2.3 动态监控进程top

  • 使用 top 命令查看当前的进程状态(动态)

2.3.1 top命令选项

  • 执行 top 命令时可以指定的命令选项
    • -d :刷新时间
    • -p :指定 pid
    • -u :指定用户
  • 示例用法:
# 仅查看指定进程动态详情
[root@node ~]# top -d 1 -p pid
[root@node ~]# top -d 1 -p $(pgrep nginx)
# 动态查看oldxu运行的进程
[root@node ~]# top -d 1 -u oldxu

2.3.2 top内部选项

  • 执行 top 后可使用的选项
    • c :改变top刷新频率(一般不建议设定)
    • P :按CPU进行排序;
    • M :以内存进行排序;
    • R :对排序后的结果进行倒序;
    • f :自定义显示的字段,比如打印ppid
    • k :指定杀死某个id
    • 1 :显示cpu核心数
    • z :以高亮显示数据
    • b :高亮显示处于R状态的进程

2.3.3 top字段含义

  • top 字段含义
    • Tasks: 129 total :当然进程的总数
    • 1 running :正在运行的进程数量
    • 128 sleeping :睡眠的进程数量
    • 0 stopped :停止的进程数量
    • 0 zombie :僵尸进程数量
  • %Cpu(s) 含义
    • 0.7 us : 系统用户进程使用 CPU 百分比
    • 0.7 sy :内核中的进程占用 CPU 百分比,通常内核是于硬件进行交互
    • 98.7 id :空闲 CPU 的百分比
    • 0.0 wa : CPU 等待IO完成的时间
    • 0.0 hi :硬中断,占的 CPU 百分比
    • 0.0 si :软中断,占的 CPU 百分比
    • 0.0 st :比如虚拟机占用物理 CPU 的时间

2.3.4 如何理解中断

  • 内存计算公式:
  • buffer/cache 是否可以释放: 手动释放:
total: 总内存计算公式:used + free + buffer
+ cache = total
used: 已使用内存计算公式:total - free -
buffers - cache = used(包含share)
free: 未被使用的内存计算公式:total - used -
buffer - cache = free
available: 可获得内存计算公式: free +
(buffer+cache可释放的空间) = available 启
动新的程序能用的内存
buffer: 写缓冲;
cache: 读缓存;
share: 共享内存,属于被分配的内存
需要注意:
free表示的是当前完全没有被程序使用的内存;
而cache在有需要时,是可以被释放出来以供其它
进程使用的;
而available才真正表明系统目前可以提供给应用
程序使用的内存;
# 内存清理 手动释放
sync
echo 3>/proc/sys/vm/drop_caches 改变了文件最后修改时间;

3.管理进程状态

当程序运行为进程,如果需要关闭进程,则需要使用
kill、killall,pkill 等命令对进程ID发送关闭信号

3.1系统支持的信号

  • 使用 kill -l 列出当前系统所支持的信号、虽然支持
    的信号很多,但我们仅以最常用的3个信号为例
    • 1(SIGHUP) :通常用来重新加载配置文件
    • 9(SIGKILL) :强制杀死进程
    • 15(SIGTERM) :终止进程,默认kill信号

3.2 关闭进程kill

1.安装 vsftpd 服务,然后启动;

[root@node ~]# yum -y install vsftpd
[root@node ~]# systemctl start vsftpd

2.修改 vsftpd 的配置文件,然后发送重载信号;

# 改变路径
[root@node ~]# echo "anon_root=/data" >> /etc/vsftpd/vsftpd.conf
# 重载服务
[root@node ~]# kill -1 81379

3.发送停止进程信号

[root@node ~]# kill -15 9160

4.发送强制停止信号,当无法停止服务时,可强制终止信号(慎用.对于'不可中断状态的进程' 强行结束会出问题)

[root@node ~]# kill -9 9160

3.3 关闭进程pkill

1.通过 pkill、killall 指定进程服务名称,然后将其进程关闭

[root@node ~]# pkill nginx
[root@node ~]# killall nginx

2.使用 pkill 将远程连接用户 t 下线

[root@node ~]# pkill -9 -t pts/0

4.进程优先级

4.1 什么是进程优先级

  • 优先级指的是优先享受资源,比如排队买票时,军人优先、老人优先。等等
  • 系统优先级:优先使用cpu资源;

4.2 为何需要优先级

  • 举个例子:海底捞火锅正常情况下响应就特别慢,那
    么当节假日时人员突增会导致处理请求特别慢;
    • 那假设我是海底捞VIP客户(最高优先级),无论多么繁忙,我都无需排队,海底捞人员会直接服务于我,满足我的需求。
    • 如果我不是VIP的人员(较低优先级)则进入排队等待状态;

4.3 进程如何配置优先级

  • 在启动进程时,为不同的进程使用不同的调度策略。
  • nice 值越高: 表示优先级越低,例如 +19 ,该进程容易将 CPU 使用量让给其他进程;
  • nice 值越低: 表示优先级越高,例如 -20 ,该进程不倾向于让出 CPU ;

4.4 进程优先级如何查看

1.使用 top 命令查看优先级;

# NI:显示nice值,默认是0。
# PR: 显示nice值,-20映射到0,+19映射到39
PID USER   PR NI  VIRT  RES  SHR
S %CPU %MEM   TIME+ COMMAND
1083 root    20  0  298628  2808  1544
S  0.3  0.1  2:49.28 vmtoolsd
5  root    0 -20    0    0    0
S  0.0  0.0  0:00.00 kworker/0:+

2.使用 ps 命令查看进程优先级;

[root@node ~]# vim
[root@node ~]# ps axo command,nice |grep
vim|grep -v grep
vim 

4.5 指定进程启动优先级nice

1.启动 vim 并且指定程序优先级为 -5

[root@node ~]# nice -n -5 vim &
[1] 98417

2.查看当前 vim 进程的优先级

[root@node ~]# ps axo pid,command,nice
|grep 98417
98417 vim             -5

4.6 修改进程优先级renice

1.查看当前正在运行的 sshd 进程优先级状态

[root@node ~]# ps axo pid,command,nice |grep [s]shd
70840 sshd: root@pts/2        0
98002 /usr/sbin/sshd -D       0

2.调整 sshd 主进程的优先级

[root@node ~]# renice -n -20 98002
98002 (process ID) old priority 0, new
priority -20

3.调整之后需要退出终端,重新打开一个新终端

[root@node ~]# ps axo pid,command,nice
|grep [s]shd
70840 sshd: root@pts/2        0
98002 /usr/sbin/sshd -D      -20
[root@node ~]# exit

4.再次登陆 sshd 服务,会由主进程 fork 子 sshd 进程(那么子进程会继承主进程的优先级)

[root@node ~]# ps axo pid,command,nice
|grep [s]shd
98002 /usr/sbin/sshd -D      -20
98122 sshd: root@pts/0       -20

5. 后台进程管理

5.1 什么是后台进程

通常进程都会在终端前台运行,一旦关闭终端,进程也
会随着结束;
那么此时我们就希望进程能在后台运行,就是将在前台
运行的进程放入后台运行,这样及时我们关闭了终端也
不影响进程的正常运行。

5.2 为什么需要后台运行

比如:我们此前在国内服务器往国外服务器传输大文件
时,由于网络的问题需要传输很久,如果在传输的过程
中出现网络抖动或者不小心关闭了终端则会导致传输失
败,如果能将传输的进程放入后台,是不是就能解决此
类问题了。

5.3 如何将进程转为后台

早期的时候大家都选择使用 nohup + & 符号将进程放入
后台,然后在使用 jobs、bg、fg 等方式查看进程状
态,但太麻烦了 也不直观,所以我们推荐使用
screen

5.3.1 nohup方式

1.使用 nohup 将前台进程转换后台运行

[root@node ~]# nohup sleep 3000 &

2.查看进程运行情况

[root@node ~]# ps aux |grep sleep
root    75118  74766  0 11:10 pts/0 
 00:00:00 sleep 3000

3.使用 job bg fg 等方式查看后台作业

[root@node ~]# jobs # 查看后台作业
[1]+ Running sleep 3000 &
[root@ansible ~]# fg %1  # 转为前台运行
[root@ansible ~]# bg %1  # 转为后台运行

5.3.2 screen方式

1.安装 screen 工具

[root@web ~]# yum install screen -y

2.开启一个 screen 子窗口,可以通过 -S 为其指定名称

[root@web ~]# screen -S wget_soft

3.在 screen 窗口中执行任务,可以执行前台运行的任务

4.平滑退出 screen ,但不会终止 screen 中的前台任务

# ctrl+a+d

5.查看当前有多少 screen 正在运行

[root@web ~]# screen -list
There is a screen on:
22058.wget_soft (Detached)
1 Socket in /var/run/screen/S-root.

6.可以通过 screen 的id 或 screen 的标签名称进入

[root@web ~]# screen -r wget_soft
[root@web ~]# screen -r 22058
[root@web ~]# exit         # 退出进程,结束screen

6.系统平均负载

  • 每次发现系统变慢时,通常做的第一件事,就是执行
    top 或 uptime 来了解系统的负载情况。
  • 比如像下面这样,我在命令行里输入了 uptime 命
    令,系统也随即给出了结果
[root@node ~]# uptime
04:49:26 up 2 days,  2:33,  2 users, load
average: 0.70, 0.04, 0.05
# 前面几列,它们分别是当前时间、系统运行时间以及正在
登录用户数。
# 而最后三个数字呢,依次则是过去 1 分钟、5 分钟、15
分钟的平均负载(Load Average)

6.1 什么是平均负载

  • 平均负载是单位时间内的 CPU 使用率吗;
    • 上面的 0.70 代表 CPU 使用率是 70% 其实不是;
  • 那如何理解平均负载:
    • 平均负载是指单位时间内,系统处于 可运行状态 和
      不可中断状态 的平均进程数,也就是平均活跃进程
      数;或者理解"平均负载"是"单位时间内的活跃进程数";
    • 平均负载与 CPU 使用率并没有直接关系;

6.1.1 可运行状态

  • 可运行状态进程:
  • 指正在使用 CPU 或者正在等待 CPU 的进程,也就是
    我们 ps 命令看到处于 R,S 状态的进程

6.1.2 不可中断状态

  • 不可中断进程:
  • 系统中最常见的是等待硬件设备的 I/O 响应,通过
    ps 命令中看到 D(Disk Sleep) 的进程。
  • 例如:当一个进程向磁盘读写数据时,为了保证数据
    的一致性,在得到磁盘回复前,它是不能被其他进程
    或者中断打断的,这个时候的进程就处于不可中断状
    态。如果此时的进程被打断了,就容易出现磁盘数据
    与进程数据不一致的问题;
  • 所以,不可中断状态实际上是系统对进程和硬件设备
    的一种保护机制;

6.2 平均负载为多少时合理

  • 理想的状态是每个 CPU 上都刚好运行着一个进程,这
    样每个 CPU 都得到了充分利用。
  • 所以在评判平均负载时,首先你要知道系统有几个
    CPU 通过 top 命令获取,或 /proc/cpuinfo
  • 示例:假设现在在 4、2、1 核的 CPU 上,如果平均负
    载为 2 时,意味着什么;
    • 1.在4个 CPU 的系统上,意味着 CPU 有 50% 的空
      闲;
    • 2.在2个 CPU 的系统上,意味着所有的 CPU 都刚好
      被完全占用;
    • 3.而1个 CPU 的系统上,则意味着有一半的进程竞
      争不到 CPU ;
  • 平均负载有三个数值,我们应该关注哪个呢?
  • 实际上,平均负载中的三个指标我们其实都需要关
    注。(就好比一天的天气要结合起来看;)
  • 1 分钟、5 分钟、15 分钟的三个值基本相同,或者相
    差不大,那就说明系统负载很平稳;
  • 1分钟的值小于15分钟的值,说明系统最近1分钟的负
    载在减少,而过去 15 分钟内却有很大的负载;
  • 如果 1 分钟的值远大于 15 分钟的值,就说明最近 1
    分钟的负载在增加,这种增加有可能只是临时性的,
    也有可能还会持续上升,所以就需要持续观察。
  • 一旦 1 分钟的平均负载接近或超过了 CPU 的个数,
    就意味着系统正在发生过载的问题,这时就得分析问
    题,并要想办法优化了;
  • 例:假设我们在有2个 CPU 系统上看到平均负载为
    2.73,6.90,12.98
    • 那么说明在过去1分钟内,系统有 136% 的超载
      (2.73/2=136%)
    • 而在过去5分钟内,有 345% 的超载
      (6.90/2=345%)
    • 而在过去15分钟内,有 649% 的超载
      (12.98/2=649%)
    • 但从整体趋势来看,系统的负载是在逐步的降低。

6.3 平均负载与CPU使用率

  • 在实际工作中,我们经常容易把平均负载和 CPU 使
    用率混淆,所以在这里,我也做一个区分;
  • 既然平均负载代表的是活跃进程数,那平均负载高
    了,不就意味着 CPU 使用率高吗?
  • 我们回到平均负载的含义上来,平均负载是指单位时
    间内,处于可运行状态和不可中断状态的进程数;
  • 所以,它不仅包括了正在使用 CPU 的进程,还包括等
    待 CPU 和等待 I/O 的进程;
  • 而 CPU 使用率,是单位时间内 CPU 繁忙情况的统计,
    跟平均负载并不一定完全对应。比如:
    • CPU 密集型进程,使用大量 CPU 计算会导致平均负
      载升高,此时这两者是一致的;
    • I/O 密集型进程,等待 I/O 也会导致平均负载升
      高,但 CPU 使用率不一定很高;
    • 大量的 CPU 进程调度也会导致平均负载升高,此时
      的 CPU 使用率也会比较高;

6.4 平均负载案例分析实战

  • 演示这三种常场景,并用 stress、mpstat、
    pidstat 等工具,找出平均负载升高的根源;
  • stress 是 Linux 系统压力测试工具,这里我们用作
    异常进程模拟平均负载升高的场景;
  • mpstat 是多核 CPU 性能分析工具,用来实时查看每
    个 CPU 的性能指标,及所有 CPU 的平均指标;
  • pidstat 是一个常用的进程性能分析工具,用来实时
    查看进程的 CPU、Mem、I/O 等性能指标;
# yum install stress sysstat -y
#如果出现无法使用mpstat、pidstat命令查看%wait指标建议更新下软件包
wget http://pagesperso-orange.fr/sebastien.godard/sysstat-11.7.3-1.x86_64.rpm
rpm -Uvh sysstat-11.7.3-1.x86_64.rpm

6.4.1 场景1-CPU密集型进程

1.第一个终端运行 stress 命令,模拟一个 CPU 使用率
100% 的场景:

[root@node ~]# stress --cpu 1 --timeout
600

2.第二个终端运行 uptime 查看平均负载的变化情况

# 使用watch -d 参数表示高亮显示变化的区域(注意负载会持续升高)
[root@node ~]# watch -d uptime
17:27:44 up 2 days,  3:11,  3 users, load
average: 1.10, 0.30, 0.17

3.在第三个终端运行 mpstat 查看 CPU 使用率的变化情况

# -P ALL 表示监控所有 CPU,后面数字 5 表示间隔 5秒后输出一组数据
[root@node ~]# mpstat -P ALL 5
Linux 3.10.0-957.1.3.el7.x86_64 (m01)
2019年04月29日 _x86_64_ (1 CPU)
17时32分03秒 CPU  %usr  %nice  %sys
%iowait  %irq  %soft %steal %guest
%gnice  %idle
17时32分08秒 all  99.80   0.00   0.20 
 0.00   0.00   0.00   0.00   0.00 
 0.00   0.00
17时32分08秒   0  99.80   0.00   0.20 
 0.00   0.00   0.00   0.00   0.00 
 0.00   0.00
#单核CPU所以只有一个all和0

4.从终端二中可以看到,1分钟的平均负载会慢慢增加到
1.00 ,而从终端三中还可以看到,正好有一个 CPU 的
使用率为 100% ,但它的 iowait 为0。这说明,平均负
载的升高正是由于 CPU 使用率为 100% 。那么,到底是
哪个进程导致了 CPU 使用率为 100% 呢?可以使用
pidstat 来查询

# 间隔 5 秒后输出一组数据
[root@node ~]# pidstat -u 5 1
Linux 3.10.0-957.1.3.el7.x86_64 (m01)
2019年04月29日 _x86_64_(1 CPU)
17时33分21秒  UID    PID  %usr %system
%guest  %CPU  CPU Command
17时33分26秒   0   110019  98.80   0.00
  0.00  98.80   0 stress
#从这里可以明显看到,stress 进程的 CPU 使用率为
100%。

6.4.2 场景2 -I/O密集型进程

1.在第一个终端运行 stress 命令,但这次模拟 I/O 压力,即不停地执行 sync

[root@node ~]# stress --io 1 --timeout
600s

2.在第二个终端运行 uptime 查看平均负载的变化情况:

[root@node ~]# watch -d uptime
18:43:51 up 2 days,  4:27,  3 users, load
average: 1.12, 0.65, 0.00

3.最后第三个终端运行 mpstat 查看 CPU 使用率的变化情况:

# 显示所有 CPU 的指标,并在间隔 5 秒输出一组数据
[root@node ~]# mpstat -P ALL 5
Linux 3.10.0-693.2.2.el7.x86_64 (bgx.com)
2019年05月07日 _x86_64_ (1 CPU)
14时20分07秒 CPU  %usr  %nice  %sys
%iowait  %irq  %soft %steal %guest
%gnice  %idle
14时20分12秒 all   0.20   0.00  82.45 
17.35   0.00   0.00   0.00   0.00 
 0.00   0.00
14时20分12秒   0   0.20   0.00  82.45 
17.35   0.00   0.00   0.00   0.00 
 0.00   0.00
#会发现cpu的与内核打交道的sys占用非常高

4.导致 iowait 高,我们需要用 pidstat 来查询

# 间隔 5 秒后输出一组数据,-u 表示 CPU 指标
[root@node ~]# pidstat -u 5 1
Linux 3.10.0-957.1.3.el7.x86_64 (m01)
2019年04月29日 _x86_64_(1 CPU)
18时29分37秒  UID    PID  %usr %system
%guest  %wait  %CPU  CPU Command
18时29分42秒   0   127259  32.60   0.20
  0.00  67.20  32.80   0 stress
18时29分42秒   0   127261   4.60  28.20
  0.00  67.20  32.80   0 stress
18时29分42秒   0   127262   4.20  28.60
  0.00  67.20  32.80   0 stress
#可以发现,还是 stress 进程导致的。

6.4.3 场景3-大量的进程

1.在第一个终端使用 stress ,但这次模拟的是 4 个进程

[root@node ~]# stress -c 4 --timeout 600

2.由于系统只有 1 个 CPU ,明显比 4 个进程要少得多,因而,系统的 CPU 处于严重过载状态*

[root@node ~]# watch -d uptime
19:11:07 up 2 days,  4:45,  3 users, load
average: 4.65, 2.65, 4.65

3.最后通过 pidstat 查询进程的情况:可以看出 4 个进程在争抢 1 个 CPU 每个进程等待 CPU 的时间(也就是代码块中的 %wait 列)高达 75% 。这些超出 CPU 计算能力的进程,最终导致 CPU 过载。

# 间隔 5 秒后输出一组数据
[root@node ~]# pidstat -u 5 1
平均时间:  UID    PID  %usr %system
%guest  %wait  %CPU  CPU Command
平均时间:   0   130290  24.55   0.00 
 0.00  75.25  24.55   - stress
平均时间:   0   130291  24.95   0.00 
 0.00  75.25  24.95   - stress
平均时间:   0   130292  24.95   0.00 
 0.00  75.25  24.95   - stress
平均时间:   0   130293  24.75   0.00 
 0.00  74.65  24.75   - stress

6.4.4 总结

  • 分析完这三个案例,我再来归纳一下平均负载与CPU
  • 平均负载提供了一个快速查看系统整体性能的手段,
    反映了整体的负载情况。但只看平均负载本身,我们
    并不能直接发现,到底是哪里出现了瓶颈。所以,在
    理解平均负载时,也要注意:
  • 平均负载高有可能是 CPU 密集型进程导致的;
  • 平均负载高并不一定代表 CPU 使用率高,还有可能
    是 I/O 更繁忙了;
  • 当发现负载高的时候,你可以使用 mpstat、pidstat
    等工具,辅助分析负载的来源
posted @ 2021-08-01 16:26  GaoBeier  阅读(240)  评论(0编辑  收藏  举报