阿里云香港节点全面故障给我们的启示
2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。”
在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可用呢。说好的N个9呢?SLA 就是个笑话,服务该挂不还是挂了。虽然经过十几个小时,阿里云香港节点服务恢复了,数据也恢复了,终于可以让各位老板松了口气,估计很多运维的小伙伴已经开始迁移服务或者开始做备份了。
但是并不是每个公司都这么幸运,不知道还有谁记得「前沿数控」这个公司,当初因为所有数据都在云硬盘上,结果因为云硬盘故障,导致公司的所有数据全部丢失,一夜回到解放前,也不知道官司现在结果如何了。
经过阿里云这次大故障,估计很多老板都会考虑可靠性的问题了,尤其是服务和数据的安全。再心大的老板估计也得让人做个服务和数据的冷备份,稍微懂点的得用混合云搞搞,估计再也没人嘲笑那些自建小容器云、自建机房的公司了。
公有云故障和公司内部服务处理方式区别很大
之前一个老板问我说公司内部要不要搞一个StatusPage?我说可以搞,但是优先级不高,等以后有精力有时间了可以搞。公司内部的很多服务会不会出问题,哪里出问题,怎么解,其实很多时候都是有固定答案的,你一回想就能知道哪里可能有问题。很多时候我们并不是缺少一个和用户沟通的渠道,而是我们故障预案都没有,也从来没有演练过。出故障是肯定的,只是不确定什么时候发生而已。先把重要的事,不做就得死的事做了、做好了再考虑其它的。
StatusPage,一句话描述就是:当你的在线业务宕机时,StatusPage 允许你和你的客户进行沟通,告知他们当前服务的状态和问题处理进展。业务正常服务状态下,客户也可以查看当前服务状态是否正常。同时,客户也可以查看这一业务所有历史上的问题发生和处理记录。
公司内部我们有很多的渠道与用户沟通。在公司内部,一般都有系统的用户群,当服务挂了,各种监控告警就会发出来,系统相关人都会注意到,第一时间在群内周知。这个和公有云的服务还是有很大不同的。
再好的预案没演练过也只是预案
就像平时,很多公司都会声称我们的系统有备份能还原。实际上很多时候也只是一个备份、还原「预案」。结果最后真的需要还原的时候发现,要么备份没成功,要么备份成功了但是数据陈旧,要么找到数据了但是无法还原。。。。总之结论就是没法还原。做这行久了,八卦也就有了,我身边血淋淋的案例太多了,此处我想 at 下我全大哥 :)
线上服务故障演练
我们真的需要对线上服务进行故障演练。针对各种故障场景下服务的容错能力、配置合理性、服务健壮性、监控告警实效性、定位与解决问题应急能力等进行演练。发现线上服务的薄弱环节,提升服务的容错性和可恢复性。
别有侥幸心理,踏实干事,一步一个脚印才能让掉坑里的次数少点。
相关阅读
中国云服务走向全球?先把 Status Page 搞定
我们可以信任阿里云的故障处理吗?