浅谈 Docker 网络：单节点单容器

1.Docker 网络模型

Docker 在 1.7 版本中将容器网络部分代码抽离出来作为 Docker 的网络库，叫 libnetwork。libnetwork 中使用 CNM（Container Network Model）来定义容器虚拟化网络的模型。CNM 包含三个核心组件和五种内置驱动，其示意图如下所示：

CNM 的三个核心组件：

sandbox：沙盒，沙盒包含了容器网络栈的信息，它可以对容器的接口、路由和 DNS 设置等进行管理。一个沙盒可以有多个 endpoint 和 network，它的实现机制一般是 Liunx network space。
endpoint：端点，一个端点可以加入 sandbox 和 network 中，它可以通过 veth pair、Open vSwitch 或其它网络设备实现，一个端点只可以属于一个网络并且只属于一个沙盒。
network：网络，网络是一组可以直接互相连通的端点，它可以通过 Liunx Bridge、VLAN 等实现。

CNM 的五种内置驱动：

bridge driver：Docker 默认的驱动类型，使用该驱动时 libnetwork 将创建的容器连接到 Docker 网桥上。它可以满足大部分容器网络应用场景，但是在容器访问外网时需要做 NAT，增加了通信的复杂度。
host driver：使用该驱动类型时 libnetwork 将不会为容器创建 network namespace，容器和宿主机共用 network namespace。
overlay driver：该驱动类型使用标准的 VXLAN 方式进行通信，使用该驱动需要额外配置存储服务，如 etcd 等。
remote driver：该驱动并未做真正的网络实现，它通过调用用户自行实现的网络驱动插件，使 libnetwork 实现驱动的插件化。
null driver：该驱动会为容器创建 network space，但是不对容器进行任何网络配置，即创建的容器只有 loopback 地址，没有其它网卡、路由和 IP 等信息。

Docker 内置了五种驱动，但是实际上经常使用的还是 bridge driver，后面仅以 bridge driver 为例循序渐进介绍 Docker 容器网络。

2.单容器网络

根据上节说明，这里构建一个单容器的网络拓扑图：

查看 docker 网络：

[root@lianhua ~]$ docker network ls
NETWORK ID          NAME                DRIVER              SCOPE
1a779d0e62d5        bridge              bridge              local
f0ae6387e721        host                host                local
6d565e9acb10        none                null                local

可以看到，Docker 自带三种网络 bridge, host 和 none，它们对应的 driver 分别是 bridge，host 和 null。

创建 container:

[root@lianhua ~]$ docker run -it --name demo0 httpd

以交互模式运行 container，在不指定 network 情况下 Docker 默认 container 使用的网络为 bridge。通过 inspect 查看 bridge 的属性：

[root@lianhua ~]$ docker inspect bridge
[
    {
        "Name": "bridge",
        "Id": "1a779d0e62d5a309e1e942862b76d69d4ba9ed9be9c7bcdc051e8de89b0cc3ee",
        "Created": "2020-08-26T00:06:03.910196776+08:00",
        "Scope": "local",
        "Driver": "bridge",
        "EnableIPv6": false,
        "IPAM": {
            "Driver": "default",
            "Options": null,
            "Config": [
                {
                    "Subnet": "172.17.0.0/16",
                    "Gateway": "172.17.0.1"
                }
            ]
        },
        "Internal": false,
        "Attachable": false,
        "Ingress": false,
        "ConfigFrom": {
            "Network": ""
        },
        "ConfigOnly": false,
        "Containers": {
            "7be09e54b24c45100769e131b46259c519710785ccfb68afaa904a1114add9a1": {
                "Name": "demo0",
                "EndpointID": "98399b3c0560aac4ca63de9f79659176562406ac02d917c667852b9a863296bb",
                "MacAddress": "02:42:ac:11:00:02",
                "IPv4Address": "172.17.0.2/16",
                "IPv6Address": ""
            }
        },
        "Options": {
            "com.docker.network.bridge.default_bridge": "true",
            "com.docker.network.bridge.enable_icc": "true",
            "com.docker.network.bridge.enable_ip_masquerade": "true",
            "com.docker.network.bridge.host_binding_ipv4": "0.0.0.0",
            "com.docker.network.bridge.name": "docker0",
            "com.docker.network.driver.mtu": "1500"
        },
        "Labels": {}
    }
]

Docker 为 bridge 网络驱动添加了一个网桥 docker0，docker0 上分配的子网是 172.17.0.0/16，并且 ip 172.17.0.1 被作为子网的网关配置在 docker0 上。这里需要注意的是，网桥 docker0 是二层设备，相当于交换机，它的作用是为连在其上的设备转发数据帧，其上配置的 ip 可认为是网桥内部有一个专门用来配置 IP 信息的网卡接口，该接口作为 container 的默认网关地址。同样的，我们看到 container 分到的 ip 地址为 172.17.0.2。

那么 container 是怎么连接到网桥 docker0 的呢？这里执行 brctl show 查看连在 docker0 的接口：

[root@lianhua ~]$ brctl show
bridge name     bridge id               STP enabled     interfaces
docker0         8000.02426c5d38db       no              veth559f8be

连在 docker0 上的接口是以 veth 开头的接口设备，它是 veth-pair。可以把它想象成网线的两端，一端连在宿主机上，另一端连在 container 内，从而实现 container 到网桥 docker0 的访问。

基于上面分析，我们可以画出 container demo0 的网络示意图如下：

3.单容器访问外网

进入 container 中分别 ping 网关，宿主机网口 ip 和外网地址：

[root@lianhua ~]$ docker exec -it demo0 /bin/bash
bash-4.2$ ping 172.17.0.1 -c 3
PING 172.17.0.1 (172.17.0.1) 56(84) bytes of data.
64 bytes from 172.17.0.1: icmp_seq=1 ttl=64 time=0.049 ms
64 bytes from 172.17.0.1: icmp_seq=2 ttl=64 time=0.047 ms
64 bytes from 172.17.0.1: icmp_seq=3 ttl=64 time=0.053 ms
--- 172.17.0.1 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2001ms
rtt min/avg/max/mdev = 0.047/0.049/0.053/0.008 ms
 
bash-4.2$ ping 192.168.0.69 -c 3
PING 192.168.0.69 (192.168.0.69) 56(84) bytes of data.
64 bytes from 192.168.0.69: icmp_seq=1 ttl=64 time=0.040 ms
64 bytes from 192.168.0.69: icmp_seq=2 ttl=64 time=0.055 ms
64 bytes from 192.168.0.69: icmp_seq=3 ttl=64 time=0.052 ms
--- 192.168.0.69 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 1999ms
rtt min/avg/max/mdev = 0.040/0.049/0.055/0.006 ms
 
bash-4.2$ ping 10.57.***.*** -c 3
PING 10.57.***.*** (10.57.***.***) 56(84) bytes of data.
64 bytes from 10.57.***.***: icmp_seq=1 ttl=42 time=1.81 ms
64 bytes from 10.57.***.***: icmp_seq=2 ttl=42 time=1.59 ms
64 bytes from 10.57.***.***: icmp_seq=3 ttl=42 time=1.71 ms
--- 10.57.***.*** ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2002ms
rtt min/avg/max/mdev = 1.593/1.705/1.813/0.095 ms

（这里的宿主机是虚拟机，它的网口 ip 是一个私网地址）

可以看到创建好的 container 可以直接访问外网。直接访问网桥是因为网桥地址在同一网段这是 work 的，直接访问宿主机网口是怎么回事呢？宿主机网口 ip 和 container ip 并不在一个网段，我们查看路由表寻找答案：

[root@lianhua ~]$ iptables-save
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE

在路由表里我们看到规则 -A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE，这条规则的意思是网桥 docker0 如果收到来自 172.17.0.0/16 网段的外出包，把它交给 MASQUERADE 处理。而 MASQUERADE 的处理方式是将包的源地址替换成宿主机的 ip 地址，实际上是在 container ip 和宿主机网口 ip 之间做了 NAT 转换，访问外网是通过宿主机网口 ip 访问的。在网桥 docker0，宿主机网口，外网接口上抓包看结果是不是这样：

# 容器中 ping 外网
bash-4.2$ ping 10.57.***.*** -c 3
PING 10.57.***.*** (10.57.***.***) 56(84) bytes of data.
64 bytes from 10.57.***.***: icmp_seq=1 ttl=42 time=1.67 ms
64 bytes from 10.57.***.***: icmp_seq=2 ttl=42 time=1.59 ms
64 bytes from 10.57.***.***: icmp_seq=3 ttl=42 time=1.64 ms
 
--- 10.57.***.*** ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2002ms
rtt min/avg/max/mdev = 1.594/1.637/1.673/0.057 ms
 
# 宿主机（虚拟机）上抓包
[root@lianhua ~]$ tcpdump -i eth0 -n icmp -vv
tcpdump: listening on eth0, link-type EN10MB (Ethernet), capture size 262144 bytes
22:03:18.733722 IP (tos 0x0, ttl 63, id 25663, offset 0, flags [DF], proto ICMP (1), length 84)
    192.168.0.69 > 10.57.***.***: ICMP echo request, id 15, seq 1, length 64
22:03:18.735322 IP (tos 0x48, ttl 43, id 58922, offset 0, flags [none], proto ICMP (1), length 84)
    10.57.***.*** > 192.168.0.69: ICMP echo reply, id 15, seq 1, length 64
22:03:19.735287 IP (tos 0x0, ttl 63, id 25731, offset 0, flags [DF], proto ICMP (1), length 84)
    192.168.0.69 > 10.57.***.***: ICMP echo request, id 15, seq 2, length 64
22:03:19.736786 IP (tos 0x48, ttl 43, id 59208, offset 0, flags [none], proto ICMP (1), length 84)
    10.57.***.*** > 192.168.0.69: ICMP echo reply, id 15, seq 2, length 64
22:03:20.736261 IP (tos 0x0, ttl 63, id 26101, offset 0, flags [DF], proto ICMP (1), length 84)
    192.168.0.69 > 10.57.***.***: ICMP echo request, id 15, seq 3, length 64
22:03:20.737811 IP (tos 0x48, ttl 43, id 59632, offset 0, flags [none], proto ICMP (1), length 84)
    10.57.***.*** > 192.168.0.69: ICMP echo reply, id 15, seq 3, length 64
 
# 外网 host 上抓包
[root@controller-2 admin(admin)]# tcpdump -i eth0 -n icmp -vv
tcpdump: listening on vlan9, link-type EN10MB (Ethernet), capture size 262144 bytes
22:03:18.772846 IP (tos 0x48, ttl 42, id 25663, offset 0, flags [DF], proto ICMP (1), length 84)
    10.183.**.*** > 10.57.***.***: ICMP echo request, id 15, seq 1, length 64
22:03:18.772890 IP (tos 0x48, ttl 64, id 58922, offset 0, flags [none], proto ICMP (1), length 84)
    10.57.***.*** > 10.183.**.***: ICMP echo reply, id 15, seq 1, length 64
22:03:19.774331 IP (tos 0x48, ttl 42, id 25731, offset 0, flags [DF], proto ICMP (1), length 84)
    10.183.**.*** > 10.57.***.***: ICMP echo request, id 15, seq 2, length 64
22:03:19.774358 IP (tos 0x48, ttl 64, id 59208, offset 0, flags [none], proto ICMP (1), length 84)
    10.57.***.*** > 10.183.**.***: ICMP echo reply, id 15, seq 2, length 64
22:03:20.775339 IP (tos 0x48, ttl 42, id 26101, offset 0, flags [DF], proto ICMP (1), length 84)
    10.183.**.*** > 10.57.***.***: ICMP echo request, id 15, seq 3, length 64
22:03:20.775390 IP (tos 0x48, ttl 64, id 59632, offset 0, flags [none], proto ICMP (1), length 84)
    10.57.***.*** > 10.183.**.***: ICMP echo reply, id 15, seq 3, length 64

# 10.183.**.*** 是虚拟机所在 host 的网口 ip 地址

在宿主机上 ping 包的源地址被改为宿主机的 ip 地址 192.168.0.69，确实做了 NAT 转换。

访问流程如下图所示：

4.外网访问单容器

外网直接访问容器是访问不了的，容器的 ip 是从 docker subnet 分配的私有地址，对于外网来说是不可见的。为了使外网可以访问容器，需要在容器和宿主机间建立端口映射。

创建容器：

$ docker run -d -p 80 --name demo1 httpd
6070389f1362ef4ad6c6264077c4a47ffe8d9b2700c48e03afcb8afa5e92356c
$ docker ps
CONTAINER ID   IMAGE     COMMAND              CREATED             STATUS              PORTS                   NAMES
6070389f1362   httpd     "httpd-foreground"   44 seconds ago      Up 32 seconds       0.0.0.0:32768->80/tcp   demo1

容器 demo1 的 80 端口被映射到宿主机的 32768 端口，外网可通过宿主机 ip + 端口的方式访问容器：

$ ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWNgroup default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
2: ens3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
    link/ether 02:42:ac:11:00:44 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.68/16 brd 172.17.255.255 scope global ens3
       valid_lft forever preferred_lft forever
    inet6 fe80::42:acff:fe11:44/64 scope link
       valid_lft forever preferred_lft forever
3: docker0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default
    link/ether 02:42:b6:5f:a7:1b brd ff:ff:ff:ff:ff:ff
    inet 172.18.0.1/24 brd 172.18.0.255 scope global docker0
       valid_lft forever preferred_lft forever
    inet6 fe80::42:b6ff:fe5f:a71b/64 scope link
       valid_lft forever preferred_lft forever
5: veth0541dca@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue master docker0 state UP group default
    link/ether 2e:31:fe:95:a3:b8 brd ff:ff:ff:ff:ff:ff link-netnsid0
    inet6 fe80::2c31:feff:fe95:a3b8/64 scope link
       valid_lft forever preferred_lft forever

$ curl 172.17.0.68:32768

<html><body><h1>It works!</h1></body></html>

Docker 在做端口映射时，会启一个 docker-proxy 进程实现宿主机流量到容器 80 端口流量的转发：

$ ps -elf | grep docker-proxy | grep -v grep
root /usr/bin/docker-proxy -proto tcp -host-ip 0.0.0.0 -host-port32768 -container-ip 172.18.0.2 -container-port 80

查看路由表：

-A DOCKER ! -i docker0 -p tcp -m tcp --dport 32768 -j DNAT --to-destination 172.18.0.2:80

该规则定义了，访问非 docker0 接口且目的端口为 32768 的数据包将被作目的地址 NAT 转换，且转换的目的 ip 是容器的 ip。

同样的，画出外网访问容器的流程如下所示：

posted @ 2021-01-05 00:32 hxia043 阅读(395) 评论(0) 编辑收藏举报

刷新页面返回顶部

云计算工作坊

浅谈 Docker 网络：单节点单容器

1.Docker 网络模型

2.单容器网络

3.单容器访问外网

4.外网访问单容器

公告