容器化之路Docker网络核心知识小结,理清楚了吗?
Docker网络是容器化中最难理解的一点也是整个容器化中最容易出问题又难以排查的地方,加上使用Kubernets后大部分人即使是专业运维如果没有扎实的网络知识也很难定位容器网络问题,因此这里就容器网络单独拿出来理一理。
先了解一下Docker的一点基础架构知识,Docker 技术架构图:
Docker是不能直接在 Windows 平台上运行的,只支持 linux 系统,因为Docker 依赖 linux kernel 三项最基本的技术。
- Namespaces 充当隔离的第一级,是对 Docker 容器进行隔离,让容器拥有独立的 hostname,ip,pid,同时确保一个容器中运行一个进程而且不能看到或影响容器外的其它进程 。
- Cgroups 是容器对使用的宿主机资源进行核算并限制的关键功能,比如 CPU, 内存, 磁盘等。
- Union FS 主要是对镜像也就是 image 这一块作支持,采用 copy-on-write 技术,让大家可以共用某一层,对于某些差异层的话就可以在差异的内存存储,
- Libcontainer 是一个库,是对上面这三项技术做一个封装。
- Docker engine 用来控制容器 container 的运行,以及镜像文件的拉取。
Docker的工作原理:每个容器都在自己的命名空间中运行,但使用与所有其他容器完全相同的内核。发生隔离是因为内核知道分配给进程的命名空间,并且在API调用期间确保进程只能访问其自己的命名空间中的资源。
Docker部署关键配置
daemon.json文件
指定私有仓库地址insecure-registries,否则拉取镜像出现问题:
1 { 2 "data-root": "/docker/data", 3 "exec-opts": ["native.cgroupdriver=cgroupfs"], 4 "registry-mirrors": [ 5 "https://docker.mirrors.ustc.edu.cn", 6 "http://hub-mirror.c.163.com" 7 ], 8 "hosts": ["tcp://0.0.0.0:2375", "unix:///var/run/docker.sock"], 9 "insecure-registries": ["192.168.0.23:5000"], 10 "max-concurrent-downloads": 10, 11 "live-restore": false, 12 "log-driver": "json-file", 13 "log-level": "warn", 14 "log-opts": { 15 "max-size": "50m", 16 "max-file": "1" 17 }, 18 "storage-driver": "overlay2" 19 }
1.指定data-root 配置容器数据地址,在服务器中单独规划磁盘空间,避免占用系统空间
2.指定hosts,放开2375对外接口
3.Docker使用storage driver(存储驱动程序)来管理image和container的数据,要使用overlayfs
,要确保系统的内核版本大于等于3.18,overlay
要比aufs和device mapper快一点,OverlayFS仅有两层,镜像中的每一层对应/var/lib/docker/overlay
中的一个文件夹,文件夹以该层的UUID命名。然后使用硬连接将下面层的文件引用到上层。这在一定程度上节省了磁盘空间。
4.指定文件驱动native.cgroupdriver=cgroupfs控制的资源主要包括CPU、内存、block I/O、网络带宽等,也可以指定为systemd,这里要注意的是后续布署k8s时要与k8s设置的文件驱动操持一致,否时会报错:
failed to create kubelet: misconfiguration: kubelet cgroup driver: "cgroupfs" is different from docker cgroup driver: "systemd"
需要修改kubelet.service Environment中添加--cgroup-driver=cgroupfs或systemd
docker.service文件
[Unit] Description=Docker Application Container Engine Documentation=http://docs.docker.io [Service] Environment="PATH=/docker/bin:/bin:/sbin:/usr/bin:/usr/sbin" ExecStart=/docker/bin/dockerd ExecStartPost=/sbin/iptables -I FORWARD -s 0.0.0.0/0 -j ACCEPT ExecReload=/bin/kill -s HUP $MAINPID Restart=always RestartSec=5 LimitNOFILE=infinity LimitNPROC=infinity LimitCORE=infinity TimeoutStartSec=0 Delegate=yes KillMode=process [Install] WantedBy=multi-user.target
docker 从 1.13 版本开始,将`iptables` 的`filter` 表的`FORWARD` 链的默认策略设置为`DROP`,从而导致 ping 其它 Node 上的 Pod IP 失败,因此必须在 `filter` 表的`FORWARD` 链增加一条默认允许规则 `iptables -I FORWARD -s 0.0.0.0/0 -j ACCEPT`
通过了解以上docker基础框架后排查网络问题思路会更清晰。
Docker容器的网络模型
Docker容器网络的原始模型主要有三种:Bridge(桥接)、Host(主机)及Container(容器)
Docker默认使用Bridge+NAT的通讯模型,Bridge模型借助于虚拟网桥设备为容器建立网络连接,Docker守护进程首次启动时,它会在当前节点上创建一个名为docker0的桥设备,并默认配置其使用172.17.0.0/16网络,此主机上启动的Docker容器会连接到这个虚拟网桥上。
容器与外部网络间的通信
为了解决容器访问外部网络,docker引入NAT,通过iptables规则控制,网桥 docker0 通过 iptables 中的配置与宿主机器上的网卡相连,所有符合条件的请求都会通过 iptables 转发到 docker0 并由网桥分发给对应的机器。创建MASQUERADE规则:
查看nat表
# iptables -t nat -S
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE
数据包流程
这条规则将所有从容器发出的、目的地址为Host外部网络的包的IP都修改成Host的IP,并由Host发送出去。
外部网络访问容器
Docker容器是通过dnat映射或docker-proxy服务对外提供访问,如指定端口映射:docker run -p 9001:9000。
使用docker run -p时,docker实际是在iptables做了DNAT规则,实现端口转发功能,为容器分配一个 IP 地址,同时向 iptables 中追加一条新的规则。
可以使用iptables -t nat -vnL查看。
-A PREROUTING -m addrtype --dst-type LOCAL -j DOCKER
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 9001 -j DNAT --to-destination 172.17.0.2:9000
外部访问外部服务器访问10.3.20.87:9001
匹配到DNAT规则,访问到容器-A PREROUTING -m addrtype --dst-type LOCAL -j DOCKER
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 9001 -j DNAT --to-destination 172.17.0.2:9000
本机访问127.0.0.1:9001 没有匹配到任何iptable,走docker-proxy
另外容器要访问外部网络需要宿主机进行转发,要在宿主机中打开转发设置:
#sysctl net.ipv4.ip_forward
net.ipv4.ip_forward = 1
为0说明没有开启,需要手动打开。
#docker network lsNETWORK ID NAME DRIVER7fca4eb8c647 bridge bridge9f904ee27bf5 none nullcf03ee007fb4 host host
docker network create -d macvlan \--subnet=172.16.86.0/24 \--gateway=172.16.86.1 \-o parent=eth0 pub_net
Docker跨主机容器间网络通信
具体的介绍可参考 之前的文章 Kubernetes集群部署关键知识总结 地址 https://www.cnblogs.com/zhangs1986/p/10749721.html
注意:flannel 使用 vxlan 技术为各节点创建一个可以互通的 Pod 网络,使用的端口为 UDP 8472,需要开放该端口。
本文所用到Docker版本为19.03.15
Kubernetes 1.20 版本开始将弃用 Docker
kubelet目前推荐方式是直连containerd。
被去掉的部分是删除 dockershim(Dockershim 作用
:把外部收到的请求转化成 Docker Daemon
能听懂的请求,让 Docker Daemon 执行创建、删除等容器操作。)
可以用Containerd 或 Podman 替换。
公众号【一个码农的日常】 技术群:319931204 1号群: 437802986 2号群: 340250479
出处:http://zhangs1986.cnblogs.com/
码云:https://gitee.com/huanzui
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。