会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
濤叔和他的朋友们
你能找到这里,说明你有经天纬地之才,包藏宇宙之志,真乃乱世之枭雄,治世之能臣也。
博客园
首页
新随笔
联系
管理
订阅
2024年4月30日
为什么K8S中的全部空闲GPU都被打爆了
摘要: 背景 最近在公司收到了一条告警,K8S 集群中的 GPU 的节点一台接一台的变成了 NotReady 状态了。过了半个小时,业务找我说他们的服务起不来了,同时服务的所有的实例全都异常了。因为我们线上没有关闭 controller manager Node 异常的驱逐,如果业务代码会把宿主机节点跑死,
阅读全文
posted @ 2024-04-30 08:53 濤叔
阅读(73)
评论(0)
推荐(0)
编辑
公告