【故障公告】阿里云抢占式实例服务器被释放引发全站故障

5月7日23:50-5月8日1:40期间,由于园子自建 k8s 集群所使用的大部分阿里云抢占式实例服务器被同时释放,造成200多个 pod 宕机,引发全站故障,由此给您带来很大的麻烦,请您谅解。

在园子的日常运营成本中云资源费用占了1/3左右,为了节约成本,k8s 集群的 worker node 主要使用阿里云抢占式实例服务器,抢占式实例有随时被释放的风险,如果少部分服务器被释放影响不大,今天遇到的是罕见的大部分服务器被同时释放。

我们会吸取教训,靠节约无法服务好用户,唯有自己变强。

posted @   博客园团队  阅读(4257)  评论(35编辑  收藏  举报
相关博文:
阅读排行:
· 2分钟学会 DeepSeek API,竟然比官方更好用!
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· DeepSeek本地性能调优
· autohue.js:让你的图片和背景融为一体,绝了!
· 10亿数据,如何做迁移?
历史上的今天:
2017-05-08 上周热点回顾(5.1-5.7)
2014-05-08 云计算之路-阿里云上:“黑色30秒”走了,“黑色1秒”来了,真相也许大白了
2013-05-08 云计算之路-阿里云上:在乌云中坚信蓝天
点击右上角即可分享
微信分享提示