【故障公告】阿里云抢占式实例服务器被释放引发全站故障
5月7日23:50-5月8日1:40期间,由于园子自建 k8s 集群所使用的大部分阿里云抢占式实例服务器被同时释放,造成200多个 pod 宕机,引发全站故障,由此给您带来很大的麻烦,请您谅解。
在园子的日常运营成本中云资源费用占了1/3左右,为了节约成本,k8s 集群的 worker node 主要使用阿里云抢占式实例服务器,抢占式实例有随时被释放的风险,如果少部分服务器被释放影响不大,今天遇到的是罕见的大部分服务器被同时释放。
我们会吸取教训,靠节约无法服务好用户,唯有自己变强。