Docker 容器的资源限制 cgroup(九)
一、cgroup简介
docker 通过 cgroup 来控制容器使用的资源配额,包括 CPU、内存、磁盘三大方面,基本覆盖了常见的资源配额和使用量控制。
cgroup 是 Control Groups 的缩写,是 Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 cpu、memory、磁盘IO等等) 的机制,被 LXC、docker 等很多项目用于实现进程资源控制。cgroup 将任意进程进行分组化管理的 Linux 内核功能。cgroup 本身是提供将进程进行分组化管理的功能和接口的基础结构,I/O 或内存的分配控制等具体的资源管理功能是通过这个功能来实现的。这些具体的资源管理功能称为 cgroup 子系统,有以下几大子系统实现:
blkio:设置限制每个块设备的输入输出控制。例如:磁盘,光盘以及 usb 等等。
cpu:使用调度程序为 cgroup 任务提供 cpu 的访问。
cpuacct:产生 cgroup 任务的 cpu 资源报告。
cpuset:如果是多核心的 cpu,这个子系统会为 cgroup 任务分配单独的 cpu 和内存。
devices:允许或拒绝 cgroup 任务对设备的访问。
freezer:暂停和恢复 cgroup 任务。
memory:设置每个 cgroup 的内存限制以及产生内存资源报告。
net_cls:标记每个网络包以供 cgroup 方便使用。
ns:命名空间子系统。
perf_event:增加了对每 group 的监测跟踪的能力,可以监测属于某个特定的 group 的所有线程以及运行在特定CPU上的线程。
目前 docker 只是用了其中一部分子系统,实现对资源配额和使用的控制。
可以使用 stress 工具来测试 CPU 和内存。使用下面的 Dockerfile 来创建一个基于 Ubuntu 的 stress 工具镜像。
# Version 0.0.1
FROM ubuntu:14.04
MAINTAINER wzlinux "admin@wzlinux.com"
RUN sed -i 's/archive.ubuntu.com/cn.archive.ubuntu.com/g' /etc/apt/sources.list
RUN sed -i 's/security.ubuntu/cn.archive.ubuntu/g' /etc/apt/sources.list
RUN apt-get -y update && apt-get -y install stress
docker build -t ubuntu:stress .
二、CPU资源配额控制
我们第一次可能出现下面的警告信息。
WARNING: Your kernel does not support cgroup swap limit.WARNING: Your
kernel does not support swap limit capabilities.
需要我们修改 grub 开启这个功能,我们需要编辑文件 /etc/default/grub,修改成如下信息。
GRUB_CMDLINE_LINUX="cgroup_enable=memory swapaccount=1"
然后重启服务器即可。
1、CPU份额控制
docker 提供了 -c
或者–cpu-shares
参数,在创建容器时指定容器所使用的 CPU 份额值。如果不指定,默认值为1024。
使用如下命令,创建容器,则最终生成的 cgroup 的 CPU 份额配置可以下面的文件中找到。
root@ubuntu:~# docker run -tid --cpu-shares 100 ubuntu:stress
dad098e7156bf10b4e4798b6ea191067c1dca37b5a0c08f7cc2cf6e7378f8051
root@ubuntu:~# cat /sys/fs/cgroup/cpu/docker/<容器长ID>/cpu.shares
100
--cpu-shares 的值不能保证可以获得1个 vcpu 或者多少 GHz 的 CPU 资源,仅仅只是一个弹性的加权值。
默认情况下,每个 docker 容器的 cpu 份额都是1024。单独一个容器的份额是没有意义的,只有在同时运行多个容器时,容器的 CPU 加权的效果才能体现出来。例如,两个容器A、B的 CPU 份额分别为1000和500,在 CPU 进行时间片分配的时候,容器 A 比容器 B 多一倍的机会获得 CPU 的时间片,但分配的结果取决于当时主机和其他容器的运行状态,实际上也无法保证容器A一定能获得 CPU 时间片。比如容器A的进程一直是空闲的,那么容器B是可以获取比容器A更多的 CPU 时间片的。极端情况下,比如说主机上只运行了一个容器,即使它的 CPU 份额只有 50,它也可以独占整个主机的 CPU 资源。
cgroups 只在容器分配的资源紧缺时,也就是说在需要对容器使用的资源进行限制时,才会生效。因此,无法单纯根据某个容器的 CPU 份额来确定有多少 CPU 资源分配给它,资源分配结果取决于同时运行的其他容器的 CPU 分配和容器中进程运行情况。
换句话说:通过 cpu share 可以设置容器使用 CPU 的优先级。
比如在 host 中启动了两个容器:
docker run -tid --name cpu512 --cpu-shares 512 ubuntu:stress stress -c 10
docker run -tid --name cpu1024 --cpu-shares 1024 ubuntu:stress stress -c 10
可以直接在 host 主机上面使用 top 指令查看,也可以进入容器里面查看,结果是一样的。
进入容器 cpu512,使用 top 指令查看负载。
进入容器 cpu1024,使用 top 指令查看负载。
因为我们是开启了10个进程,为的就是充分让系统资源变得紧张,只有这样竞争资源,我们设定的资源比例才可以显现出来,如果只运行一个进行,他们会自动分配到空闲的CPU,这样比例就无法看出来。目前可以看到总比例是 1:2。
2、CPU周期控制
docker 提供了--cpu-period、--cpu-quota
两个参数控制容器可以分配到的 CPU 时钟周期。
--cpu-period
是用来指定容器对 CPU 的使用要在多长时间内做一次重新分配。
--cpu-quota
是用来指定在这个周期内,最多可以有多少时间用来跑这个容器。跟 –cpu-shares 不同的是这种配置是指定一个绝对值,而且没有弹性在里面,容器对 CPU 资源的使用绝对不会超过配置的值。
cpu-period 和 cpu-quota 的单位为微秒(μs)。cpu-period 的最小值为 1000 微秒,最大值为1秒(10^6 μs),默认值为 0.1 秒(100000 μs)。cpu-quota 的值默认为 -1,表示不做控制。
举个例子,如果容器进程需要每 1 秒使用单个 CPU 的 0.2 秒时间,可以将 cpu-period 设置为1000000(即1秒),cpu-quota 设置为 200000(0.2秒)。当然,在多核情况下,如果允许容器进程需要完全占用两个 CPU,则可以将 cpu-period 设置为 100000(即0.1秒),cpu-quota 设置为 200000(0.2秒)。
使用示例:
docker run -tid --cpu-period 100000 --cpu-quota 200000 ubuntu
则最终生成的 cgroup 的 CPU 周期配置可以下面的文件中找到:
root@ubuntu:~# cat /sys/fs/cgroup/cpu/docker/<容器的完整长ID>/cpu.cfs_period_us
100000
root@ubuntu:~# cat /sys/fs/cgroup/cpu/docker/<容器的完整长ID>/cpu.cfs_quota_us
200000
3、CPU core控制
对多核 CPU 的服务器,docker 还可以控制容器运行限定使用哪些 CPU 内核和内存节点,即使用–cpuset-cpu s
和–cpuset-mems
参数。对具有 NUMA 拓扑(具有多 CPU、多内存节点)的服务器尤其有用,可以对需要高性能计算的容器进行性能最优的配置。
如果服务器只有一个内存节点,则–cpuset-mems
的配置基本上不会有明显效果。
使用示例:
docker run -tid --name cpu1 --cpuset-cpus 0-2 ubuntu
表示创建的容器只能用0、1、2这三个内核。最终生成的 cgroup 的 cpu 内核配置如下:
root@ubuntu:~# cat /sys/fs/cgroup/cpuset/docker/<容器的完整长ID>/cpuset.cpus
0-2
通过下面指令可以看到容器中进程与 CPU 内核的绑定关系,可以认为达到了绑定 CPU 内核的目的。
docker exec <容器ID> taskset -c -p 1(容器内部第一个进程编号一般为1)
4、CPU配额控制参数的混合使用
当上面这些参数中时,cpu-shares 控制只发生在容器竞争同一个内核的时间片时,如果通过 cpuset-cpus 指定容器A使用内核 0,容器 B 只是用内核 1,在主机上只有这两个容器使用对应内核的情况,它们各自占用全部的内核资源,cpu-shares 没有明显效果。
cpu-period、cpu-quota 这两个参数一般联合使用,在单核情况或者通过 cpuset-cpus 强制容器使用一个 CPU 内核的情况下,即使cpu-quota 超过 cpu-period,也不会使容器使用更多的CPU资源。
cpuset-cpus、cpuset-mems 只在多核、多内存节点上的服务器上有效,并且必须与实际的物理配置匹配,否则也无法达到资源控制的目的。
在系统具有多个CPU内核的情况下,需要通过 cpuset-cpus 为容器 CPU 内核才能比较方便地进行测试。
试用下列命令创建测试用的容器:
docker run -tid --name cpu1 --cpuset-cpus 3 --cpu-shares 512 ubuntu:stress stress -c 1
docker run -tid --name cpu2 --cpuset-cpus 3 --cpu-shares 1024 ubuntu:stress stress -c 1
上面的 ubuntu:stress 镜像安装了 stress 工具来测试 CPU 和内存的负载。两个容器的命令 stress -c 1,这个命令将会给系统一个随机负载,产生 1 个进程,这个进程都反复不停的计算由 rand() 产生随机数的平方根,直到资源耗尽。
观察到宿主机上的 CPU 试用率如下图所示,第三个内核的使用率接近100%,并且一批进程的 CPU 使用率明显存在 2:1 的使用比例的对比:
二、对内存的限额
与操作系统类似,容器可使用的内存包括两部分:物理内存和 swap。 Docker 通过下面两组参数来控制容器内存的使用量。
- -m 或 --memory:设置内存的使用限额,例如 100M, 2G。
- --memory-swap:设置 内存+swap 的使用限额。
当我们执行如下命令:
docker run -m 200M --memory-swap=300M ubuntu
其含义是允许该容器最多使用 200M 的内存和 100M 的 swap。默认情况下,上面两组参数为 -1,即对容器内存和 swap 的使用没有限制。
下面我们将使用 progrium/stress 镜像来学习如何为容器分配内存。该镜像可用于对容器执行压力测试。执行如下命令:
docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 280M
- --vm 1:启动 1 个内存工作线程。
- --vm-bytes 280M:每个线程分配 280M 内存。
默认情况下,容器可以使用主机上的所有空闲内存。
与 CPU 的 cgroups 配置类似,docker 会自动为容器在目录 /sys/fs/cgroup/memory/docker/<容器的完整长ID>中创建相应 cgroup 配置文件。
运行结果如下:
因为 280M 在可分配的范围(300M)内,所以工作线程能够正常工作,其过程是:
- 分配 280M 内存。
- 释放 280M 内存。
- 再分配 280M 内存。
- 再释放 280M 内存。
- 一直循环......
如果让工作线程分配的内存超过 300M,结果如下:
分配的内存超过限额,stress 线程报错,容器退出。
三、对 Block IO 的限制
Block IO 是另一种可以限制容器使用的资源。Block IO 指的是磁盘的读写,docker 可通过设置权重、限制 bps 和 iops 的方式控制容器读写磁盘的带宽。
1、block IO 权重
默认情况下,所有容器能平等地读写磁盘,可以通过设置--blkio-weight
参数来改变容器 block IO 的优先级。
--blkio-weight 与 --cpu-shares 类似,设置的是相对权重值,默认为 500。在下面的例子中,container_A 读写磁盘的带宽是 container_B 的两倍。
docker run -it --name container_A --blkio-weight 600 ubuntu
docker run -it --name container_B --blkio-weight 300 ubuntu
同样的,我们可以在 /sys/fs/cgroup/blkio/docker 看到 block IO 的数值。
2、限制 bps 和 iops
- bps 是 byte per second,每秒读写的数据量。
- iops 是 io per second,每秒 IO 的次数。
可通过以下参数控制容器的 bps 和 iops:
- --device-read-bps,限制读某个设备的 bps。
- --device-write-bps,限制写某个设备的 bps。
- --device-read-iops,限制读某个设备的 iops。
- --device-write-iops,限制写某个设备的 iops。
下面这个例子限制容器写 /dev/sda 的速率为 30 MB/s
docker run -it --device-write-bps /dev/sda:30MB ubuntu
我们来看看实验结果:
通过 dd 测试在容器中写磁盘的速度。因为容器的文件系统是在 host /dev/sda 上的,在容器中写文件相当于对 host /dev/sda 进行写操作。另外,oflag=direct 指定用 direct IO 方式写文件,这样 --device-write-bps 才能生效。
结果表明,bps 22.3 MB/s 没有超过 30 MB/s 的限速。
作为对比测试,如果不限速,结果如下: