摘要:
一、什么是慢SQL 慢SQL是指那些执行效率低下、响应时间长,导致用户等待时间变长和服务器资源利用率下降的SQL查询。那么,如何定义一个SQL查询是"慢"的呢?这不是一个绝对时间的问题,而是需要从多维度考量。 时间维度 最常见的定义慢SQL的方法是时间阈值。这个阈值可以根据不同的系统和性能要求设置。 阅读全文
摘要:
监控的4个黄金指标 《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Late 阅读全文
摘要:
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 一、故障复盘目的 通过复盘总结教训,找到根因,从根本上进行优化和改进,后期工作中规避问题再发生 阅读全文
摘要:
我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运 阅读全文
摘要:
为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不 阅读全文
摘要:
## 一、系统不可能100%可靠 系统不可能100%可靠,人都不可能100%健康,更何况我们人类创造的系统?所以,任何软件系统都不应该一味地追求 100%可靠。事实证明,可靠性超过一定值后,再提高可靠性对于一项服务来说,结果可能会更差而不是更好!极端的可靠性会带来成本的大幅提升:比如过分追求稳定性限 阅读全文
摘要:
基本情况 1月某日早9点15分,某手机端app接到用户报障:app出现异常,具体表象为登录app提示 阅读全文