摘要: 在上一部分,我们学习了 SRE 的基础,需要掌握的重点是 SLI 和 SLO 以及 Error Budget(错误预算)策略。SLI 是我们选择的衡量系统稳定性的指标,SLO 是每个指标对应的目标,而我们又经常把 SLO 转化为错误预算,因为错误预算的形式更加直观。转化后,我们要做的稳定性提升和保障 阅读全文
posted @ 2021-05-02 19:35 元贞 阅读(725) 评论(0) 推荐(0) 编辑
摘要: 你好,我是赵成,不知不觉我们已经来到了结束语,非常感谢你的一路陪伴。 学完咱们的专栏,我想对于 SRE 到底是怎么一回事儿这个问题,你应该有一个大致的了解了。就像我们在开篇词中提到的,SRE 真的没有那么神秘,你平时在做的很多事情本身就属于 SRE 的范畴,学到这里,你应该对此深有体会了。 其实这个 阅读全文
posted @ 2021-05-02 19:33 元贞 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 前面几节课,我们按照层层递进的思路,从可用性讲到 SLI 和 SLO,再到 SLO 所对应的Error Budget 策略。掌握了这些内容,也就为我们建设 SRE 体系打下了一个稳固的基础。 今天,我用一个电商系统的案例,带着你从头开始,一步一步系统性地设定 SLO,一方面巩固我们前面所学的内容,另 阅读全文
posted @ 2021-05-02 19:31 元贞 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 上一讲是我们引入 SRE 的关键,我们掌握了选择 SLI 指标和设定 SLO 目标的方法。你可以先回顾一下内容,看看是不是能回答这三个问题:选择 SLI 的两大原则是什么?VALET 法则是什么?怎么来计算 SLO?如果答案都很清晰,那么恭喜你,你攻克了 SRE 的一个关键知识点;如果有点模糊,那就 阅读全文
posted @ 2021-05-02 19:18 元贞 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 有人认为 SRE 就是一个岗位,而且是一个具备全栈能力的岗位, 只要有这么一个人,他就能解决所有稳定性问题。这还只是一种理解,而且这个理解多是站在管理者的角度。 SRE是指Site Reliability Engineer (网站可靠性工程师)。他是软件工程师和系统管理员的结合,一个SRE工程师基 阅读全文
posted @ 2021-05-02 19:15 元贞 阅读(554) 评论(0) 推荐(0) 编辑