使用cgroups做资源限制测试

一,什么是cgroups? 

1,cgroups是资源的控制组,它提供了一套机制用于控制一组特定进程对资源的使用。
    cgroups绑定一个进程集合到一个或多个限制资源使用的子系统上。
2, cgroups是容器的实现基础之一:

   其中:Namespace主要用于隔离资源

         Cgroups用来提供对一组进程以及将来子进程的资源限制

说明:刘宏缔的架构森林是一个专注架构的博客,地址:https://www.cnblogs.com/architectforest

         对应的源码可以访问这里获取: https://github.com/liuhongdi/

说明:作者:刘宏缔 邮箱: 371125307@qq.com

二,cgroups的用途:

 主要有4个:
 Resource limitation: 限制资源使用,例:内存使用上限/cpu的使用限制
 Prioritization: 优先级控制,例:CPU利用/磁盘IO吞吐
 Accounting: 一些审计或一些统计
 Control: 挂起进程/恢复执行进程
 

三,cgroups相关的操作:

1、查看内核是否开启cgroup支持:
复制代码
[root@blog ~]$ more /boot/config-`uname -r` | grep -i cgroup
CONFIG_CGROUPS=y
CONFIG_BLK_CGROUP=y
# CONFIG_DEBUG_BLK_CGROUP is not set
CONFIG_CGROUP_WRITEBACK=y
CONFIG_CGROUP_SCHED=y
CONFIG_CGROUP_PIDS=y
... 
  注意:CONFIG_CGROUPS=y 表示已开启cgroup
 
2、cgroup目前存在v1/v2 两个版本,如何检查当前内核版本是否支持cgroup v2呢 ? 
[root@node1 ~]# grep cgroup /proc/filesystems
nodev   cgroup
nodev   cgroup2

  如果看到cgroup2,表示支持cgroup v2

3、列出所有挂载的cgroup挂载点
复制代码
[root@blog ~]$ mount | grep cgroup
tmpfs on /sys/fs/cgroup type tmpfs (ro,nosuid,nodev,noexec,mode=755)
cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,xattr,release_agent=/usr/lib/systemd/systemd-cgroups-agent,name=systemd)
cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,cpu,cpuacct)
cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,devices)
cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,blkio)
cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,net_cls,net_prio)
cgroup on /sys/fs/cgroup/rdma type cgroup (rw,nosuid,nodev,noexec,relatime,rdma)
cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,memory)
cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,cpuset)
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,freezer)
cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,perf_event)
cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,hugetlb)
cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,pids)
  注意:/sys/fs/cgroup的挂载方式是ro,表示readonly
   因为/sys/fs/cgroup 目录由 systemd 在系统启动的过程中挂载, 它把目录挂载为只读的类型,这个目录下不能再手动创建目录
4、列出cgroup支持的子系统?
[root@blog ~]# ll /sys/fs/cgroup/
total 0
dr-xr-xr-x 4 root root  0 Jan 10 18:03 blkio
lrwxrwxrwx 1 root root 11 Jan 10 18:03 cpu -> cpu,cpuacct
lrwxrwxrwx 1 root root 11 Jan 10 18:03 cpuacct -> cpu,cpuacct
dr-xr-xr-x 2 root root  0 Jan 10 18:03 cpu,cpuacct
dr-xr-xr-x 2 root root  0 Jan 10 18:03 cpuset
dr-xr-xr-x 4 root root  0 Jan 10 18:03 devices
dr-xr-xr-x 2 root root  0 Jan 10 18:03 freezer
dr-xr-xr-x 2 root root  0 Jan 10 18:03 hugetlb
dr-xr-xr-x 4 root root  0 Jan 10 18:03 memory
lrwxrwxrwx 1 root root 16 Jan 10 18:03 net_cls -> net_cls,net_prio
dr-xr-xr-x 2 root root  0 Jan 10 18:03 net_cls,net_prio
lrwxrwxrwx 1 root root 16 Jan 10 18:03 net_prio -> net_cls,net_prio
dr-xr-xr-x 2 root root  0 Jan 10 18:03 perf_event
dr-xr-xr-x 4 root root  0 Jan 10 18:03 pids
dr-xr-xr-x 2 root root  0 Jan 10 18:03 rdma
dr-xr-xr-x 5 root root  0 Jan 10 18:03 systemd
  通过/proc/cgroups来查看
[root@blog ~]# more /proc/cgroups
#subsys_name    hierarchy       num_cgroups     enabled
cpuset  8       1       1
cpu     2       1       1
cpuacct 2       1       1
blkio   4       29      1
memory  7       1703    1
devices 3       60      1
freezer 9       1       1
net_cls 5       1       1
perf_event      10      1       1
net_prio        5       1       1
hugetlb 11      1       1
pids    12      67      1
rdma    6       1       1 
 

Cgroup的子系统

blkio  这个子系统为块设备设定输入/输出限制,比如物理设备(磁盘,固态硬盘,USB 等等)
devices  限制设备文件的创建\限制对设备文件的读写
cpuset  把任务绑定到特定的cpu
cpu  限定cpu的时间份额
cpuacct  统计CPU使用情况,例如运行时间,throttled时间(统计一组进程占用cpu资源的报告)
memory

这个子系统设定 cgroup 中任务使用的内存限制,并自动生成由那些任务使用的内存资源报告

freezer  暂停/恢复cgroup中的task
net_cls  配合 tc限制网络带宽(用classid标记该cgroup内的task产生的报文)
net_prio  设置进程的网络流量优先级
huge_tlb  限制huge page 内存页数量
perf_event  允许perf监控cgroup的task数据
ns 名称空间子系统
pids 限制cgroup中可以创建的进程数
rdma  限制RDMA资源(Remote Direct Memory Access,远程直接数据存取)
参考:
https://man7.org/linux/man-pages/man7/cgroups.7.html

四,查看一个进程上的cgroup限制:

以nginx的进程为例

复制代码
[root@blog ~]# ps auxfww | grep nginx:
root   491  0.0  0.0  71028  3368 ?  Ss   May18   0:00 nginx: master process /usr/local/openresty/nginx/sbin/nginx
nginx  492  0.0  0.0 102496  7036 ?  S    May18   0:00  \_ nginx: worker process
nginx  493  0.0  0.0 102764  7496 ?  S    May18   0:00  \_ nginx: worker process
nginx  494  0.0  0.0 102496  5856 ?  S    May18   0:00  \_ 
...
  查看492这个进程的cgroup限制
  
[root@blog ~]# more /proc/492/cgroup
12:pids:/system.slice/openresty.service
11:hugetlb:/
10:perf_event:/
9:freezer:/
8:cpuset:/
7:memory:/system.slice/openresty.service
6:rdma:/
5:net_cls,net_prio:/
4:blkio:/system.slice/openresty.service
3:devices:/system.slice/openresty.service
2:cpu,cpuacct:/
1:name=systemd:/system.slice/openresty.service

  

  第一列:cgroupid,和/proc/cgroups中的id是一致的,
  第二列:cgroup的子系统
  第三列:进程在 cgroup 树中的路径  
  
[root@blog ~]# ls /sys/fs/cgroup/systemd/system.slice/openresty.service/
cgroup.clone_children  cgroup.procs  notify_on_release  tasks
 

五,使用libcgroup-tools工具包做进程的限制和子系统测试

 libcgroup-tools包含了多个cgroup相关的命令,方便进行cgroups的测试。 
说明:从centos7开始,已经默认不再使用libcgroup套件
[root@blog ~]# yum install libcgroup-tools -y
lssubsys -a / lssubsys -m 命令
[root@blog ~]lssubsys -a   //列出所有的子系统
[root@ht5 ~] lssubsys -m //列出所在的目录

 
启动1个消耗内存的进程,每个进程占用50M内存
#--vm-keep  一直占用内存,(默认是不断释放并重新分配内存)
[root@node1 memory]# stress -m 1 --vm-bytes 50M --vm-keep
stress: info: [14327] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd 
用pidstat查看效果
[root@node1 ~]# pidstat -r | grep stress
14时57分13秒     0     46088      0.01      0.00    7948     972   0.03  stress
14时57分13秒     0     46089      0.07      0.00   59152   51496   1.34  stress  
3,在cgroup中添加一个内存限制:再次用stress测试:
[root@node1 memory]# pwd
/sys/fs/cgroup/memory
[root@node1 memory]# mkdir lhd_stress_memory
注意:
cgroups 文件系统会在创建文件目录的时候自动创建相应的配置文件
[root@node1 memory]# ls lhd_stress_memory/
cgroup.clone_children  memory.kmem.limit_in_bytes          memory.kmem.tcp.usage_in_bytes  memory.memsw.max_usage_in_bytes  memory.soft_limit_in_bytes  tasks
cgroup.event_control   memory.kmem.max_usage_in_bytes      memory.kmem.usage_in_bytes      memory.memsw.usage_in_bytes      memory.stat
cgroup.procs           memory.kmem.slabinfo                memory.limit_in_bytes           memory.move_charge_at_immigrate  memory.swappiness
memory.failcnt         memory.kmem.tcp.failcnt             memory.max_usage_in_bytes       memory.numa_stat                 memory.usage_in_bytes
memory.force_empty     memory.kmem.tcp.limit_in_bytes      memory.memsw.failcnt            memory.oom_control               memory.use_hierarchy
memory.kmem.failcnt    memory.kmem.tcp.max_usage_in_bytes  memory.memsw.limit_in_bytes     memory.pressure_level            notify_on_release
 可以看到新建目录下面已建好了配置文件
 设置这个cgroup内存限制的最大使用内存:
[root@node1 memory]# expr 1024 \* 1024 \* 10
10485760
设置内存的限制
[root@node1 memory]# echo 10485760 > lhd_stress_memory/memory.limit_in_bytes

用stress测试内存限制

复制代码
[root@node1 memory]# cgexec -g memory:lhd_stress_memory  stress -m 1 --vm-bytes 100M --vm-keep --verbose
stress: info: [35293] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd
stress: dbug: [35293] using backoff sleep of 3000us
stress: dbug: [35293] --> hogvm worker 1 [35294] forked
stress: dbug: [35294] allocating 104857600 bytes ...
stress: dbug: [35294] touching bytes in strides of 4096 bytes ...
stress: FAIL: [35293] (415) <-- worker 35294 got signal 9
stress: WARN: [35293] (417) now reaping child worker processes
stress: FAIL: [35293] (451) failed run completed in 0s 
 
   因为有内存10M的限制,导致stress在申请100M内存时收到了 SIGKILL(signal 9) 信号
   测试改为10M范围内
[root@node1 memory]# cgexec -g memory:lhd_stress_memory  stress -m 1 --vm-bytes 9M --vm-keep --verbose  
 此时可以正常运行 
  用pidstat查看效果
  
[root@node1 ~]# pidstat -r | grep stress
14时34分21秒     0     41767      0.05      0.00    7948    1148   0.03  stress
14时34分21秒     0     41768      0.07      0.00   17164    9328   0.24  stress

 

六,与systemd相关的cgroup操作:

1、systemd-cgtop:显示 cgoups 的实时资源消耗情况
复制代码
[root@node1 ~]# systemd-cgtop            
Control Group                                              Tasks   %CPU   Memory  Input/s Output/s
/                                                            211    4.0     1.0G        -        -
/system.slice                                                 84    1.5   831.7M        -        -
/user.slice                                                    9    0.9    64.3M        -        -
/system.slice/kubelet.service                                 15    0.6    31.3M        -        
… 
复制代码
 
2、systemd-cgls :查看 cgroups 的层级结构
复制代码
[root@node1 ~]# systemd-cgls
Control group /:
-.slice
├─user.slice
│ └─user-0.slice
│   ├─session-3.scope
│   │ ├─14349 sshd: root [priv]
…
各slice的说明:
-.slice: 根slice
user.slice:   下面是所有的用户会话
system.slice:  下面是所有系统service
machine.slice: 下面是所有虚拟机和容器
 
什么是slice:一组进程:由service或会话/容器/虚拟机组成
 
3、为systemd启动的服务添加cgroup限制
查看有哪些cgroup配置项可用
[root@node1 ~]# man systemd.resource-control
  查看nginx的内存限制:
[root@node1 ~]# more /sys/fs/cgroup/memory/system.slice/nginx.service/memory.limit_in_bytes
9223372036854771712
上面是没有手动设置时的默认值
设置内存限制
[root@node1 ~]# systemctl set-property nginx.service MemoryLimit=512M
再次查看
[root@node1 ~]# more /sys/fs/cgroup/memory/system.slice/nginx.service/memory.limit_in_bytes
536870912
注意:即使服务重启,这个cgroup限制仍然会起作用,因为systemctl已经把它写到了service文件中
复制代码
[root@node1 ~]# systemctl cat nginx
# /usr/lib/systemd/system/nginx.service
[Unit]
Description=The nginx HTTP and reverse proxy server
After=network.target remote-fs.target nss-lookup.target
 
[Service]
Type=forking
PIDFile=/run/nginx.pid
# Nginx will fail to start if /run/nginx.pid already exists but has the wrong
# SELinux context. This might happen when running `nginx -t` from the cmdline.
# https://bugzilla.redhat.com/show_bug.cgi?id=1268621
ExecStartPre=/usr/bin/rm -f /run/nginx.pid
ExecStartPre=/usr/sbin/nginx -t
ExecStart=/usr/sbin/nginx
ExecReload=/bin/kill -s HUP $MAINPID
KillSignal=SIGQUIT
TimeoutStopSec=5
KillMode=mixed
PrivateTmp=true
 
[Install]
WantedBy=multi-user.target
 
# /etc/systemd/system.control/nginx.service.d/50-MemoryLimit.conf
# This is a drop-in unit file extension, created via "systemctl set-property"
# or an equivalent operation. Do not edit.
[Service]
MemoryLimit=536870912
复制代码
4、其他常用命令:
设置cpu使用率最高不超过单颗cpu的80%
[root@node1 ~]# systemctl set-property nginx.service CPUQuota=80%
 
七,查看linux的版本:
[root@node1 ~]# more /etc/redhat-release
CentOS Linux release 8.1.1911 (Core)
[root@node1 ~]# uname -r
4.18.0-147.el8.x86_64 
 参考
  https://man7.org/linux/man-pages/man1/unshare.1.html
  https://man7.org/linux/man-pages/man7/cgroups.7.html
posted @ 2023-02-22 16:56  jinzi  阅读(38)  评论(0编辑  收藏  举报