云计算之路-阿里云上-容器服务:移除节点引发博问站点短暂故障

昨天 18:00 之后我们将自建 docker swarm 集群上的所有应用都切换到了阿里云 swarm 容器服务(非 swarm mode ,不支持 overlay 网络)的集群上。

今天晚上我们通过阿里云容器服务控制台将1个节点移出集群(当时集群中一共有9个节点)

没想到这样一个常规操作竟然造成了博问站点故障

故障时间 20:53-20:55 左右,由此给您带来麻烦,请您谅解。

发现故障时,我们通过阿里云容器服务控制台“重新部署”博问应用后恢复正常。

故障相关日志如下:

2018-3-22 20:53:28
伸缩服务q_web失败:Conflict: The name q_web_1 is already assigned. You have to delete (or rename) that container to be able to assign q_web_1 to a container again.
2018-3-22 20:53:28
伸缩服务q_web失败:Conflict: The name q_web_2 is already assigned. You have to delete (or rename) that container to be able to assign q_web_2 to a container again.

另外,我们又发现重启集群中的1个节点也会造跑在这个节点上的所有应用故障,而不像我们自建 docker swarm 集群那样会自动将容器迁移到其他节点。而且,节点重启后应用不能自动恢复,需要手工一个一个“重新部署”应用。

posted @   博客园团队  阅读(1128)  评论(4编辑  收藏  举报
编辑推荐:
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
阅读排行:
· 2分钟学会 DeepSeek API,竟然比官方更好用!
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· DeepSeek本地性能调优
· autohue.js:让你的图片和背景融为一体,绝了!
· 10亿数据,如何做迁移?
历史上的今天:
2013-03-22 云计算之路:云存储的又一次纠结
2013-03-22 云计算之路-阿里云上:0:25~0:40网络存储故障造成网站不能正常访问
2010-03-22 上周热点回顾(3.15-3.21)
点击右上角即可分享
微信分享提示