摘要: 稳定性保障工作从时间上来说,包括日常业务需求开发时的监控告警配置和开关预留,大促前夕的容量预估、压测、限流、扩容和预热,其实还有一部分,上文未及提及,那便是大促值班。 建议在值班前写一个值班手册,将可能出现的问题,解决方案,需要使用到的工具链接全部罗列清楚,避免值班时手忙脚乱找资料找工具。还有必要的权限申请在值班前申请好。 在大促期间,严阵以待,这个时候需要做到两动,主动关注监控大盘,注意流量变化,监控基础设施指标;被动关注告警,一旦被告警提醒就是有异常情况了,要立刻投入定位解决。 最后,稳定性保障工作是没有尽头的,其重要性不言而喻,但是也要在业务功能与稳定性之间做好权衡,如果稳定性核对的调用流量都超过了业务流量,那么稳定性工作就有点过了,从机器成本、人力成本上都没有这个必要。 本文整理了自己对稳定性保障的认识和理解,可能存在理解有误或者认识不足的情况欢迎指正,也期待更多的学习逐渐修正和完善自己的稳定性相关知识。 阅读全文
posted @ 2023-01-25 12:54 古道轻风 阅读(211) 评论(0) 推荐(2) 编辑