合集-SRE方法论

摘要:## 一、系统不可能100%可靠 系统不可能100%可靠,人都不可能100%健康,更何况我们人类创造的系统?所以,任何软件系统都不应该一味地追求 100%可靠。事实证明,可靠性超过一定值后,再提高可靠性对于一项服务来说,结果可能会更差而不是更好!极端的可靠性会带来成本的大幅提升:比如过分追求稳定性限 阅读全文
posted @ 2023-05-18 17:08 不思jo 阅读(191) 评论(1) 推荐(4) 编辑
摘要:SRE就是在用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务 阅读全文
posted @ 2023-03-24 17:26 不思jo 阅读(403) 评论(0) 推荐(0) 编辑
摘要:为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不 阅读全文
posted @ 2023-08-18 16:19 不思jo 阅读(36) 评论(0) 推荐(0) 编辑
摘要:我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运 阅读全文
posted @ 2023-08-28 17:29 不思jo 阅读(35) 评论(0) 推荐(0) 编辑
摘要:监控的4个黄金指标 《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Late 阅读全文
posted @ 2023-11-17 16:13 不思jo 阅读(40) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示