【故障公告】没有龙卷风,k8s集群翻船3次,投用双集群恢复
今天没有龙卷风(异常的高并发请求),故障却依然出现,问题非常奇怪。
某种异常情况会造成短时间内, k8s 集群中大量 pod (超过60%)因健康检查失败而处于 CrashLoopBackOff 状态,健康检查失败的错误是 connection refused
Liveness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused
Readiness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused
今天 k8s 集群因此翻船3次,分别是
- 早上
10:00-10:15
- 中午
11:48-12:07
- 下午
14:20-14:35
第2次翻船后我们非常紧张,如果中午找不到有效的避免翻船的紧急措施,下午不知要翻多少次,而当前我们对这个从天而降的突发问题毫无头绪。
中午我们想到了一招,既然1艘船扛不住,那我们用2艘,2艘同时翻的可能性小很多,而且翻掉的1艘过段时间自己也能恢复,即使2艘也扛不住,那故障的影响也会减小。
就在我们刚部署好新的集群,14:20 左右开始又翻船了,加入新船后恢复了正常。
从2艘船并驾齐驱的情况看,我们相信可以扛住。
非常抱歉!这段时间的频繁故障给大家带来了很大的麻烦,请大家谅解!
Kubernetes 集群相关信息:
- 使用阿里云服务器自己搭建
- k8s 版本是 1.23.3
- 网络用的是 calico
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 2分钟学会 DeepSeek API,竟然比官方更好用!
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· autohue.js:让你的图片和背景融为一体,绝了!
· 10亿数据,如何做迁移?
· 推荐几款开源且免费的 .NET MAUI 组件库
2020-03-16 上周热点回顾(3.9-3.15)
2018-03-16 云计算之路-阿里云上:一夜之间竞价服务器全没了
2015-03-16 上周热点回顾(3.9-3.15)
2010-03-16 博客园上海俱乐部三月份活动通知邀请函已经发出!
2009-03-16 博客园上海俱乐部活动报道(2009-3-15)