docker - 由于docker swarm子网与host机器网络冲突导致的container通信问题的解决方案
背景
近期,公司网络要迁移到新的网段,所以原来在服务器上面搭建的docker swarm需要重新构建。。。
拿到新的服务器地址看了一下,“10.xxx.xxx.xxx" 。。。 纳尼,这IP赶脚是子网的地址段呀,居然用到了服务器上面!唉,算了吧,当时也没多想,可能是自己少见多怪吧。。。于是就把几台服务启动swarm搭建好,配置好了manager和work节点,然后创建了Overlay网络,在上面用2个busybox的container做了个小测试,container之间可以连接,于是把之前停止的container都启动,完事后这样高高兴兴的下班啦!!(不加班的生活真美好)
第二天一到公司,还没坐稳呢,旁边的哥们就急急忙忙的过来找我,“我们的app无法连接到数据库,报错啦!!”(PS: 我们的app和数据库分别跑在了不同宿主机的container上面,彼此通过docker的子网进行通信)。 奇怪吖,我昨天还试了试可以通信呀,怎么今天就不行了呢??
分析问题
我们总共有3台机器挂在swarm下,有一台机器是manager(我们简单起见,命名为M),另外两台作为worker(W1+W2)加入到swarm集群中。简单的拓扑结构如下图:
昨天,我做测试的时候是用的M与W1,当时没出现问题;今天出现问题的是M与W2,containers 之间无法通信; 之后,我又尝试在W1与W2上面运行containers,也无法通信。。。。
没办法,尝试着重新创建swarm集群,然后再创建跨节点的overlay网络,然而,得到了令人惊奇的结果,这次所有container都无法通信!!
于是,先从swarm集群入手排错,swarm运行正常,没有任何发现。。。再从overlay网络层面进行分析,运行指令:
#docker network inspect myOverlayNet
发现docker默认创建的子网是 10.0.0.0
会不会是由于docker 子网与 host 机器的网络 同在一个网段(10.xxx.xxx.xxx)而导致的冲突呢???
解决
重新建立子网, 这次指定好subnet的网段,为了和host机器区分开来,使用了192.~的网段,命令如下
#docker network create -d overlay --subnet=192.168.0.0/24 --attachable myOverlay
在不同的hosts(M, W1 与 W2)上面新建立containers,(busybox1, busybox2 和 busybox3)
## run busybox1 on manage node # docker run -itd --name=busybox1 --network=myOverlay busybox /bin/sh ## run busybox2 on worker node 1 # docker run -itd --name=busybox2 --network=myOverlay busybox /bin/sh ## run busybox3 on worker node 2 # docker run -itd --name=busybox3 --network=myOverlay busybox /bin/sh
进入container,测试连接
##在 busybox1 里测试连接到 busybox2 and busybox3 # nslookup busybox2 --output-- Name: busybox2 Address: 192.168.0.2 busybox2.myOverlay # nslookup busybox3 --output-- Name: busybox3 Address: 192.168.0.3 busybox3.myOverlay
OK,这次通信没有问题啦,看来真的是docker 的默认子网(10.0.0.0)与服务器(宿主机)上的IP段(10.xxx.xxx.xxx)冲突导致的问题。
所以我们的解决方案就是: 在创建 docker 子网的时候指定IP段
最后,感谢大家的关注,欢迎大家留言交流 :)