12 2023 档案
摘要:第四部分 管理 第二十八章 迅速培养SRE加入on-call 如何给新手带上喷气背包,同时保证老手的速度不受影响? 成功的 SRE 团队离不开信任一一为了维持全球化服务的正常运转,我们必须信任 on-call团队了解系统如何运行,可以诊断系统的异常情况,善于利用资源和寻求帮助,以及可以在压力下保持镇
阅读全文
摘要:第三部分 具体实践 应急事件处理 一旦SRE发现了系统中存在的问题,要如何解决呢?正确的解决方案不一定是当初把问题一次性修复好,而可以靠降低系统准确度、关闭一些不重要的功能,或者将用户流量导向其他没有问题的任务实例等手段暂时缓解问题。解决方案的细节肯定是和每个服务和团队相关的。但是如何有效地应对紧急
阅读全文
摘要:第四章 服务质量目标 如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠低运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。 服务质量指标(SLI) 服务质量目标(SLO)
阅读全文
摘要:第二部分 指导思想 本部分将描述 SRE 日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。 第三章 拥抱风险 管理风险 在构建系统的过程中,可靠性的进一步提升成本并不是线性增加的。高昂的成本主要存在于以下两个维度: 冗余物理服务器 / 计算资源的成本 机会成本(如何理解
阅读全文
摘要:第二章 Google生产环境:SRE视角 Google 数据中心与其他传统数据中心和小型服务器集群相比非常不同。这些差异有好处也有坏处,本章将详细讨论 Google 数据中心建设中遇到的机遇与挑战。 硬件 数据中心(供电系统,制冷系统,网络系统,计算机硬件) 约10台物理服务器组成一个机柜(rack
阅读全文
摘要:译者序 SRE 是一群天生的怀疑论者,我们怀疑一切宣传起来 "高大上" 的技术,以及任何 "神奇" 的产品一一我们只想看具体的设计架构、实现细节,以及真实的监控图表。SRE 在保障系统可靠性方面并没有什么万能药,有的只是这种极强的务实态度 (pragmatic)。 这种务实的态度决定了 SRE 会认
阅读全文