docker优化之Cgroup资源配置
摘要
Docker通过 Cgroup 来控制容器使用的资源配额,包括CPU、内存、磁盘三大方面、 基本覆盖了常见的资源配额和使用量控制。
Cgroup 是 Control Groups 的缩写,是linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 CPU、内存、磁盘 IO 等等)的机制,被 LXC、docker 等很多项目用于实现进程资源控制。Cgroup 本身是提供将进程进行分组化管理的功能和接口的基础结构,I/O 或内存的分配控制等具体的资源管理是通过该功能来实现的。
一、参数的各种作用
bikio: 设置限制每个块设备的输入输出控制,例如磁盘,光盘以及usb 等
CPU: 使用调度程序为 Cgroup 任务提供CPU 的访问
cpuacct: 产生 cgroup 任务的CPU 资源报告。
cpuset: 如果是核心的CPU,这个子系统会为 cgroup 任务分配单独 的cpu 和内存。
devices: 允许或拒绝 cgroup 任务对设备的访问。
freezer: 暂停和恢复 cgroup 任务。
memory: 设置每个 cgroup 内存限制以及产生内存资源报告。
net_cls: 标记每个网络包以供cgroup 方便使用
ns :命名空间子系统。
perl_event: 增加了对每个 group 的监测跟踪的能力,可以监测属于某个特定的 group 的所有线程以及运行在特定CPU 上的线程。
[root@node2 stress]# cat /proc/cgroups #subsys_name hierarchy num_cgroups enabled cpuset 10 4 1 cpu 2 94 1 cpuacct 2 94 1 memory 9 94 1 devices 5 94 1 freezer 6 4 1 net_cls 4 4 1 blkio 7 94 1 perf_event 11 4 1 hugetlb 8 4 1 pids 3 4 1 net_prio 4 4 1
二、使用方法
1、使用Dockerfile 来创建一个基于Centos 的stress 工具镜像
[root@node2 ~]# mkdir /opt/stress/ [root@node2 ~]# cd /opt/stress/ [root@node2 stress]# vi Dockerfile FROM centos:7 MAINTAINER stf RUN yum install -y wget RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo RUN yum install -y stress ~
2、创建镜像
[root@node2 stress]# docker build -t centos:stress . Sending build context to Docker daemon 2.048kB Step 1/5 : FROM centos:7 ---> 8652b9f0cb4c Step 2/5 : MAINTAINER stf ---> Using cache ---> 80468e999d52 Step 3/5 : RUN yum install -y wget ---> Using cache ---> 1bf1242cb2c2 Step 4/5 : RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo ---> Using cache ---> 6ce5e3c164d0 Step 5/5 : RUN yum install -y stress ---> Using cache ---> 4af74c172bd2 Successfully built 4af74c172bd2 Successfully tagged centos:stress
3、--cpu-shares 参数
使用如下命令,命令中--cpu-shares 参数值不能保证1个 vcpu 或者多少GHzde cpu 资源, 它仅是一个弹性的加权值。
[root@node2 stress]# docker run -itd --cpu-shares 100 centos:stress
d0e644192d2fe6dae8497459c643cabc00138f3de96d98fcab8bd2d58b113caa
说明:默认情况下,每个 Docker容器的cpu份额 都是1024.单独一个容器的份额是没有意义的,只有在同时运行多个容器时,容器的 CPU 加权的效果才能体现出来。
例如:两个容器A B 的CPU 份额分别为 1200 和600 ,在CPU进行时间片分分配的时候,容器A比容器B 多一倍的机会获得 CPU的时间片。
但分配的结果取决于当时主机和其他容器的运行状态,实际上也无法保证容器 A 一定能获得CPU时间片。比如容器A 的进程一直是空闲,
那么容器B 是可以获取比容器A 更多的CPU 时间片的。极端情况下,例如主机上只运行了一个容器,即使它的cpu 份额只有 100 ,它也可以独占整个主机的CPU资源
Cgroups 只在容器分配的资源紧缺时,即在需要对容器使用的资源进行限制时,才会生效,因此,无法单纯根据某个容器的CPU份额来确定有多少CPU资源分配给它,资源分配 结果取决于同时运行的其他容器的CPU分配和容器中进程运行情况
可以通过 CPU share 设置容器使用CPU 的优先级,比如启动了两个容器及运行查看CPU 使用百分比
创建两个容器
[root@node2 stress]# docker run -ite --name cpu1024 --cpu-shares1024 centos:stress stress -c 10 [root@node2 stress]# docker run -itd --name cpu513 --cpu-shares 512 centos:stress stress -c 10
进入容器,并运行查看cpu 使用的百分比
可以看出两个容器%CPU 比例为1:2
4、CPU周期限制
Docker 提供了 -cpu-period、--cpu-quota 两个参数控制容器可以分配到的cpu 时钟周期
--cpu-period: 是用来指定容器对CPU 的使用要在多长时间内做一次重新分配。
--cpu-quota: 是用来指定在这个周期内,最多可以有多少时间用来跑这个容器。
与 --cpu-shares 不同的是,这种配置是指定一个绝对值,容器对cpu 资源的使用绝对不会超过配置的值
cpu-period 和 cpu-quota 的单位为微秒 (us).cpu-period 的最小值为1000 微秒,最大值为1秒 (10^6 us),默认值为0.1 秒(100000us).
例如:容器进程需要每 1 秒使用单个 CPU 的 0.2 秒时间,可以将 cpu-period 设置 为 1000000(即 1 秒),cpu-quota 设置为 200000(0.2 秒)。
当然,在多核情况下,如果允许容器进程完全占用两个 CPU,则可以将 cpu-period 设置为 100000(即 0.1 秒), cpu-quota 设置为 200000(0.2 秒)。
[root@node2 stress]# docker run -itd --cpu-period 100000 --cpu-quota 200000 centos:stress 54e857709e10b23d49a14aa36d8f3e5b3d316b69864468060032ed854fadee3b [root@node2 stress]#
进入容器查看
[root@node2 stress]# docker exec -it 54e857709e10 bash [root@54e857709e10 /]# cat /sys/fs/cgroup/cpu/cpu.cfs_period_us 100000 [root@54e857709e10 /]# cat /sys/fs/cgroup/cpu/cpu.cfs_quota_us 200000
5、CPU Core 控制
对多核 CPU 的服务器,Docker 还可以控制容器运行使用那些 CPU 内核,即使用--cpuset-cpus 参数
这对具有多CPU 的服务器尤其有用,可以对需要高性能计算的容器进行性能最优的配置。
[root@node2 stress]# docker run -itd --name cpu1 --cpuset-cpus 0-1 centos:stress 3c4367894fef4887cdc2aec83d8881b52450a3b6e4b0ccea8c35331bd16785d3
执行以上命令需要宿主机为双核,表示创建的容器只能用 0、1两个内核。最终生成 的 cgroup 的 CPU 内核配置如下
进入容器查看
[root@node2 stress]# docker exec -it 3c4367894fef bash [root@3c4367894fef /]# cat /sys/fs/cgroup/cpuset/cpuset.cpus 0-1 [root@3c4367894fef /]# exit exit 通过下列指令可以看到容器中进程与cpu内核的绑定关系,达到绑定cpu内核的目的 [root@node2 stress]# docker exec -it 3c4367894fef taskset -c -p 1##容器内部的第一个进程号pid为1,被绑定到指定到的cpu上运行 pid 1's current affinity list: 0,1
6、cpu配置控制参数的混合使用
- 通过cpuset-cpus参数指定容器A使用cpu内核0,容器B使用cpu内核1。
- 在主机上只有这个两个容器使用对应的cpu内核情况,它们各自占用全部的内核,cpu-shares没有明显的效果。
- cpuset-cpus 、cpuset-mems 参数只在多核,内存节点上服务器有效,并且必须与实际的物理配置匹配,否则也无法达到资源控制的目的。
- 在系统具有多个cpu内核的情况 下,需要通过cpuset-cpus 参数为设置容器cpu内核才能方便进行。
测试
[root@node2 stress]# docker run -itd --name cpu2 --cpuset-cpus 1 --cpu-shares 512 centos:stress stress -c 1
7248e9e5a4ed4e90fc567e7549e321f81ccdb7e7cca31b3bb122c2b6c552e352
[root@node2 stress]# docker run -itd --name cpu4 --cpuset-cpus 3 --cpu-shares 1024 centos:stress stress -c 1
12998bfd195ba40eb345ae339b824bfabf351e8986ff254ebb63ea9f9e76b432
#分别进入cpu2和cpu3查看cpu使用率,有下面数据可知,cpu1和3使用率达到了100%,权重对它们没有影响
进入cpu2查看
[root@node2 stress]# docker exec -it 7248e9e5a4ed bash [root@7248e9e5a4ed /]# top
进入cpu4查看cpu使用情况
[root@node2 stress]# docker exec -it 12998bfd195b bash [root@12998bfd195b /]# top
7、内存限制
- 与操作系统类似,容器可使用的内存包括两个部分:物理内存和swap
- 容器通过 -m或-memory 设置内存的使用限额,例如: -m 300M; 通过-memory-swap设置内存+swap 的使用限额
- 实例如下,允许容器最多使用250M的内存和350M的swap
[root@node2 stress]# docker run -it -m 250M --memory-swap=350M progrium/stress --vm 1 --vm-bytes 300 // --vm 1 ,代表启动一个内存工作线程 // --vm-bytes 280 M ,代表每个线程可以分配350M内存
默认情况下,容器可以使用主机上的所有空闲内存。
上述配置与cpu的cgroup的配置类似,Docker会自动为容器目录/sys/fs/cgroup/memory/docker/<容器ID> 中创建相应的cgroup的配置文件
注:如果分配的内存超过限额,stress线程就会报错,容器会自动退出
8、Block IO的限制
默认情况下,所有容器能平等地读写磁盘,可以通过设置 -blikio-weight 参数来改变容器block IO 的优先级
//--blkio-weight 与--cpu-shares 类似,设置的是相对权重值,默认为500。 [root@node2 stress]# docker run -it --name container_A --blkio-weight 600 centos:stress [root@fb4898c27e33 /]# cat /sys/fs/cgroup/blkio/blkio.weight 600 [root@fb4898c27e33 /]# exit exit [root@node2 stress]# docker run -it --name container_B --blkio-weight 300 centos:stress [root@eed43b789fec /]# cat /sys/fs/cgroup/blkio/blkio.weight 300
9、bps和iops 的限制
bps是byte per second,每秒读写的数据量。iops是io per second, 每秒IO的次数。
可通过以下参数控制容器的bps和iops:
--device-read-bps:限制读某个设备的bps. --device-write-bps:限制写某个设备的bps. --device-read-iops:限制读某个设备的iops. --device-write-iops:限制写某个设备的iops。
下面的示例是限制容器写/dev/sda 的速率为5 MB/s,/按ctrl+c中断查看
docker run -it --device-write-bps /dev/sda:5MB centos:stress [root@node2 stress]# docker run -it --device-write-bps /dev/sda:5MB centos:stress [root@7d49c23d0811 /]# dd if=/dev/zero of=test bs=1M/按ctrl+c
43+0 records out 45088768 bytes (45 MB) copied, 8.60301 s, 5.2 MB/s
通过dd命令测试在容器中写磁盘的速度。因为容器的文件系统是在host /dev/sda 上的,
在容器中写文件相当于对host /dev/sda进行写操作。另外,oflag=direct 指定用direct IO方式写文件,
这样–device-write-bps 才能生效。
结果表明限速5MB/s 左右。作为对比测试,创建一个普通容器,没有做限速,查看其写速度。
[root@node2 stress]# docker run -it centos:stress [root@58c31529eca8 /]# dd if=/dev/zero of=test2 bs=1M count=1024 oflag=direct
在多个容器运行时,必须使用上述的参数设置优化,不能把所有的资源给其中一个容器,会造成资源浪费,容器不稳定。