2023 年 12月随笔档案 - LHX2018

SRE Google运维解密 28-34章

摘要：第四部分管理第二十八章迅速培养SRE加入on-call 如何给新手带上喷气背包，同时保证老手的速度不受影响？成功的 SRE 团队离不开信任一一为了维持全球化服务的正常运转，我们必须信任 on-call团队了解系统如何运行，可以诊断系统的异常情况，善于利用资源和寻求帮助，以及可以在压力下保持镇阅读全文

posted @ 2023-12-30 08:04 LHX2018 阅读(66) 评论(0) 推荐(0) 编辑

SRE Google运维解密 10-27章

摘要：第三部分具体实践应急事件处理一旦SRE发现了系统中存在的问题，要如何解决呢？正确的解决方案不一定是当初把问题一次性修复好，而可以靠降低系统准确度、关闭一些不重要的功能，或者将用户流量导向其他没有问题的任务实例等手段暂时缓解问题。解决方案的细节肯定是和每个服务和团队相关的。但是如何有效地应对紧急阅读全文

posted @ 2023-12-30 08:01 LHX2018 阅读(248) 评论(0) 推荐(0) 编辑

SRE Google运维解密 4-9章

摘要：第四章服务质量目标如果不详细了解服务中各种行为的重要程度，并且不去度量这些行为的正确性的话，就无法正确运维这个系统，更不要说可靠低运维了。那么，不管是对外服务，还是内部API，我们都需要制定一个针对用户的服务质量目标，并且努力去达到这个质量目标。服务质量指标（SLI）服务质量目标（SLO）阅读全文

posted @ 2023-12-24 21:25 LHX2018 阅读(128) 评论(0) 推荐(0) 编辑

SRE Google运维解密第三章

摘要：第二部分指导思想本部分将描述 SRE 日常工作背后的指导思想——工作模式、行为方式，以及平时运维工作中关注的重点等。第三章拥抱风险管理风险在构建系统的过程中，可靠性的进一步提升成本并不是线性增加的。高昂的成本主要存在于以下两个维度：冗余物理服务器 / 计算资源的成本机会成本（如何理解阅读全文

posted @ 2023-12-17 09:27 LHX2018 阅读(84) 评论(0) 推荐(0) 编辑

SRE Google运维解密第二章

摘要：第二章 Google生产环境：SRE视角 Google 数据中心与其他传统数据中心和小型服务器集群相比非常不同。这些差异有好处也有坏处，本章将详细讨论 Google 数据中心建设中遇到的机遇与挑战。硬件数据中心（供电系统，制冷系统，网络系统，计算机硬件）约10台物理服务器组成一个机柜（rack 阅读全文

posted @ 2023-12-09 18:12 LHX2018 阅读(85) 评论(0) 推荐(0) 编辑

SRE Google运维解密第一章

摘要：译者序 SRE 是一群天生的怀疑论者，我们怀疑一切宣传起来 "高大上" 的技术，以及任何 "神奇" 的产品一一我们只想看具体的设计架构、实现细节，以及真实的监控图表。SRE 在保障系统可靠性方面并没有什么万能药，有的只是这种极强的务实态度（pragmatic）。这种务实的态度决定了 SRE 会认阅读全文

posted @ 2023-12-01 23:08 LHX2018 阅读(212) 评论(0) 推荐(0) 编辑

LHX2018

12 2023 档案

随笔分类

随笔档案

阅读排行榜