灭火图 - 故障发现和定位的入口

通过深入分析和解决企业在可观测性和稳定性保障方面的挑战,Flashcat 提出了“灭火图”这一关键概念。

  • 灭火图以服务/模块/基础组件/基础设施等为维度,以聚合的视角实时度量某个特定维度的可用性(典型指标包括时延、流量、错误、饱和度),并为该可用性指标自动设定合理的阈值,可以回溯历史上的指定时间点的可用性状态(典型的跨度为24小时)。
  • 灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心,从灭火图开始,可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度,引导技术团队高效、精准的定位故障。

今天详细为大家介绍服务故障定位的入口工具:Flashcat-灭火图

灭火图的功能定位是什么?

在建设和使用可观测性平台的过程中,我们是否经常遇到以下这些问题:

  • 数据分散:需要观测的数据一部分在这个平台,一部分在那个平台,查看和对比的时候切来切去十分苦恼
  • 数据太多:一个主机几十个指标,一个微服务几十个指标,追溯问题的时候成百上千的指标和日志等各类数据,不知从何下手
  • 难以追溯:发现了服务发生问题,是否是网络设备出现问题还是底层基础设施出现问题?追溯时要先确定底层是哪些设备,再依次排查对应数据,效率很低
  • 难以解决:不同的模块和设备往往是不同的人负责的,发生问题时如果没有负责人的及时介入,从查问题到解决问题,可能会被“踢皮球”,在过程中浪费了大量时间

通过灭火图,我们针对性的解决监控中这些痛点,更加快速的帮助用户发现、定位并解决问题。

灭火图观测层级规划

灭火图,是Flashcat故障定位环节的入口,也是连接Flashcat中各分析能力的核心。

我们可以通过Flashcat的北极星系统和智能告警发现业务异常,日常巡检中则可以通过浏览灭火图,快速聚焦可能出现问题或者已经出现问题的接口、模块以及下层的组件和基础设施,并下钻查看其中具体是哪一部分发生问题。

通过灭火图卡片的关联分析入口,查看所有卡片相关的数据并通过灵活多样化的分析工具和下钻功能继续找到问题根因并解决。

也可通过卡片告警功能对问题发生进行及时预警,以便更加及时的解决可能发生的问题。以灭火图为入口,一站式完成问题的发现、定位、解决、预防的一系列操作。

那么同样也常被用作日常巡检和问题排查的仪表盘和灭火图又有何区别呢?

  • 【组织形态上】 灭火图是结构化的,可以同时观测系统的多个部分,如功能/组件/基础设施,还可以层层下钻,查看具体对象的指标/日志/链路/事件等,是系统的立体抽象和关键数据的浓缩;相比之下,仪表盘更侧重于数据的平铺、多样化展示,各个仪表盘间往往是并列的关系,常用于监控对象明细数据的呈现。
  • 【功能上】 灭火图基于结构化的优点,汇聚串联了各种分析功能和排查问题的最佳实践,比如功能卡片飘红,我们可以下钻查看功能对应的指标,发现成功率下降,继续下钻查看对应时间点的日志,以及进一步查看链路分析数据/问题特征/相关事件等;仪表盘则更侧重于数据展示丰富性的实现,配备简单的变量切换查看功能。
  • 【使用上】 在故障处理时,问题范围收敛、排查路径引导等环节更多需要使用到灭火图。而当问题定位到某个具体的对象,如一台服务器或一个数据库时,则可以查看这个对象的仪表盘详情,用于做更为详细的分析。因此仪表盘可以作为基于灭火图追查问题的一个最终环节,两者结合起来加速问题的排查分析,灭火图也提供了串联仪表盘的功能,让整个定位分析过程变得更为流畅。

传统仪表盘: Flashcat 仪表盘

灭火图: Flashcat 灭火图

推荐一个 Flashcat 灭火图针对C端服务的最佳实践

  1. 将灭火图首页层级规划为:接口、微服务、组件、基础设施。
  2. 确定支持北极星业务线的核心接口(如订单系统核心接口、用户系统核心接口等)、微服务及对应负责人。
  3. 确定支持以上接口和微服务的组件(如MySQL、Redis、Kafka等)、基础设施(网络、DNS等)及对应负责人。
  4. 基于灭火图的各类模板创建规则,规则将自动生成接口、微服务、组件和基础设施的灭火图卡片,并分层展示。同时规则可定期自动执行,自动更新卡片。
  5. 灭火图能够自动关联日志、trace等信息,也可手动补充关联,如某微服务的变更事件、某组件的仪表盘等。
  6. 巡检或故障处理时,在灭火图首页观测服务的全局状态,有飘红的部分则下钻追查,收敛问题范围,并按关联的线索排查相应的指标、日志、tracing、事件等。

针对不同的行业或toC和toB的特点,灭火图配置和观测的对象可以灵活设置。

灭火图故障定位流程

此外,灭火图能够快速生成为拓扑大屏展示形式,非技术人员也可以简明的完成日常巡检和异常观察。

电商类业务拓扑图

灭火图的应用范围

灭火图是IT系统全局健康状态的量化,也是服务故障的处理入口,在需要稳定性保障的场景都可以发挥其价值。

例如:

  • 门店类业务
  • 出行类业务
  • 电商类业务
  • …..

灭火图适用行业

总结

灭火图正成为企业提升稳定性保障能力,加速故障定位不可或缺的工具。

Flashcat 故障定位流程示意

了解灭火图的更多详情请访问快猫星云官网:https://flashcat.cloud/

posted @ 2024-01-23 13:13  IT运维监控  阅读(254)  评论(0编辑  收藏  举报