摘要: 背景 最近在公司收到了一条告警,K8S 集群中的 GPU 的节点一台接一台的变成了 NotReady 状态了。过了半个小时,业务找我说他们的服务起不来了,同时服务的所有的实例全都异常了。因为我们线上没有关闭 controller manager Node 异常的驱逐,如果业务代码会把宿主机节点跑死, 阅读全文
posted @ 2024-04-30 08:53 濤叔 阅读(39) 评论(0) 推荐(0) 编辑