老张，你的服务是不是挂了？论全局 SLI 的重要性

合集 - SRETalk(24)

1.SRE心里话：要求100%服务可用性就是老板的无知2023-05-25 2.2 分钟，搞懂 SLO 最佳实践2023-05-26 3.SRE Google 运维解密读书笔记一：SRE 方法论概述2023-05-17 4.面向故障处理的可观测性体系建设2023-06-19 5.VictoriaLogs 要凭什么革了各家日志存储的命2023-10-13 6.可观测性数据收集集大成者 Vector 介绍2023-10-13 7.稳定性保障8个锦囊，建议收藏！2023-11-22 8.Prometheus 14 点实践经验分享2023-12-29 9.招贤令：一起来搞一个新开源项目2024-01-04 10.大一统的监控探针采集器 cprobe2024-01-13 11.快速监控 Oracle 数据库2024-01-18 12.漫画图解 Go 并发编程之：Channel2024-01-30 13.如何排查常规软件问题 - 面向 Linux 初级用户的教程2024-02-04 14.Vector + ClickHouse 收集日志2024-03-15 15.5 分钟小工具：使用 dive 分析 docker 镜像2024-03-16 16.使用 nsenter 排查容器网络问题2024-03-19 17.别想宰我，怎么查看云厂商是否超卖？详解 cpu steal time2024-03-26

18.老张，你的服务是不是挂了？论全局 SLI 的重要性2024-03-28

19.关于 ulimit 的两个天坑2024-04-03 20.SRE 必备利器：域名 DNS 探测排障工具2024-04-12 21.写了一个 SRE 调试工具，类似一个小木马2024-04-18 22.Prometheus 聚合查询的两个方案2024-05-24 23.SRE 排障利器，接口请求超时试试 httpstat2024-06-11 24.运维 + AI，你得先搞懂这些2024-08-09

场景再现

20240321153320

你正在午休，正梦见中了彩票，突然收到电话告警，说服务对外接口 95 分位延迟突增，惊出一身冷汗，睡意全无，抓紧打开监控系统，查看服务的 SLI 指标，发现确实有问题，已经持续 1 分钟，这服务我刚接手没多久，怎么办？怎么办？？对了，告警详情里有 SOP 预案手册，赶紧打开看看。

SOP 预案手册里写着：

1.研发运维群里确认是否有人刚有上线，如果有该服务的变更，及时回滚
2.该服务没有多活架构，无法切流，需要找到详细原因再针对性处理
3.登录 s 链接，可以查看该服务的 SLI（Service Level Indicator，反应服务健康状况的最重要的几个黄金指标）
4.登录 x 系统，找到 a 索引，可以查看本服务的日志
5.打开 y 链接，可以打开仪表盘，展示该服务所在机器的各项性能指标
…

于是，你急吼吼的在群里询问大家是否有变更，同时，抓紧查看服务的 SLI 指标和日志，日志里有个很关键的线索：

请求某个依赖的下游服务（假设其名字是 a），发现超时了，打印了超时日志，但是无法区分是网络的问题导致的，还是就是 a 服务返回的慢了。此时，你肯定很想知道 a 服务当前是否健康，a 服务的各项 SLI 是否正常，如果 a 服务的 SLI 都正常，可能就是网络链路问题，如果 a 服务的 SLI 也不正常，那很可能就是 a 服务的问题了。

但是，TMD，我不知道去哪里看 a 服务的 SLI 啊…我甚至都不知道 a 服务是否对外暴露了 SLI 指标！！！

这个问题很常见，很多公司都建设了 Zabbix、Prometheus、Nightingale 等监控系统，但是却没有一个统一的地方查看各个服务的 SLI，其实，服务的 SLI 指标远比机器的 CPU、内存等指标来得重要。最佳实践是什么？

SLI 最佳实践

之前我翻译过一篇文章，介绍 Facebook 的 SLICK：《Facebook 基于 SLO 的可靠性保障实践》。SLICK 其实就是一个公司级全局的服务 SLI 汇聚之地，工程师可以在这里查看依赖的其他服务的健康状况，这对于故障的快速定位起到了关键作用。

20240321170057

20240321170309

SLICK 虽然已经很大程度上解决了一些问题，但也有两个典型问题：

你必须知道你依赖的其他服务叫什么，如果你是个新手，可能未必知道
所有服务的所有 SLI 都在这里平铺，没有层级组织，信息过载，对于关注全局的人来讲，一下子看不过来

故而，我们希望这些服务之间有横向依赖关系，通常可以从 tracing 系统自动获取，如果没有 tracing 系统，也可以用 eBPF 或手工建立这个关系，手工建立其实也不麻烦，你对你的服务熟悉，你只需要配置你自己的服务即可，全公司可能 500 个微服务，最终是由 200 多个人分别去建立，每个人配置一两个微服务，也不是很难。除了横向依赖关系，还希望建立纵向层级关系，比如建立一个 系统-子系统-服务 的三层关系，底层服务如果出问题，问题上浮，在最终的系统层面画个红 x 之类的，首页只展示各个系统的健康状况，系统的数量通常不会特别多，就可以做到一目了然。这个纵向层级关系，是没法从某个数据自动生成的，通常都是需要手工配置，假设你是某个微服务的维护人员，相当于你要配置一下自己这个微服务的分组关系，应该归属到哪个系统或者哪个子系统。

有些朋友听到需要手工配置可能就望而却步了，大可不必，让微服务负责人配置自己的服务，分布式分担这个工作，每个人就比较轻松了。而且这个信息改动极少，一般只有新服务上线或者服务下线才会改动，不会频繁改动。另外，这属于稳定性治理层面的工作，数据经过治理才能更有价值，才能更好的服务于故障发现和定位，才能更好的反向驱动各个微服务建立这些关键数据，让整体稳定性提升。治理工作是工程工作的放大器和矫正器。

依据这个思路，我们创业建立了一个叫做灭火图的产品，来帮助公司建立这种全局 SLI 的治理。当然，灭火图除了建立上面讲到的这个能力，还可以串联 metrics、logs、traces、events 等各类可观测性数据，作为一个数据的全局入口，可以有效提升故障发现和定位的效率。如果您有兴趣，欢迎联系我们交流，联系我们的邮箱即可：contact-us@flashcat.cloud ，或者到下面的网址提交一个申请，我同事会联系您约时间交流：

https://flashcat.cloud/contact/

🎯 关于快猫星云

快猫星云是一家云原生智能运维科技公司，由知名开源项目“夜莺(Nightingale)”的核心开发团队组成，创始团队均来⾃阿⾥、百度、滴滴等互联⽹公司。夜莺是一款开源云原生监控工具，是中国计算机学会接受捐赠并托管的第一个开源项目，在GitHub上有超过8000颗星，迭代发布了超过100多个版本，上百位社区贡献者，是国内领先的开源可观测性解决方案。

快猫星云以开源夜莺为内核打造的“Flashcat平台”，是国内顶级互联⽹公司可观测性实践的产品化落地，致力于让可观测性技术更好的服务企业，保障服务稳定性。Flashcat 平台具有以下特点：

统一采集：采用插件化思路，内置集成上百种采集插件，服务器、网络设备、中间件、数据库、应用、业务，均可监控，开箱即用。
统一告警：支持几十种数据源对接，收集各类监控系统的告警事件，进行统一的告警收敛、降噪、排班、认领、升级、协同，大幅提升告警处理效率。
统一观测：将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通，并预置行业最佳实践，既提供全局业务视角、技术视角的驾驶舱，也提供层层下钻的故障定位能力，有效缩短故障发现和定位时间。

快猫星云，让可观测性数据更有价值！
https://flashcat.cloud/

posted @ 2024-03-28 10:49 IT运维监控阅读(98) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 2 分钟，搞懂 SLO 最佳实践

· SRE 必备利器：域名 DNS 探测排障工具

· 了解SLI、SLO和SLA

· 11.11大促背后的技术保障：SLA与SLO的深度解析与实践案例

· 有了这款工具，定位线上问题事半功倍｜云效工程师指北

阅读排行：
· [翻译] 为什么 Tracebit 用 C# 开发
· Deepseek官网太卡，教你白嫖阿里云的Deepseek-R1满血版
· 2分钟学会 DeepSeek API，竟然比官方更好用！
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· 刚刚！百度搜索“换脑”引爆AI圈，正式接入DeepSeek R1满血版

公告

昵称： IT运维监控
园龄： 4年9个月
粉丝： 17
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

老张，你的服务是不是挂了？论全局 SLI 的重要性

场景再现

SLI 最佳实践

🎯 关于快猫星云

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论