告警恢复时，如何拿到当前值

合集 - FlashDuty(22)

1.玩转Zabbix智能告警：降噪、排班、认领、升级、IM协同2023-05-16 2.太卷了，史上最简单的监控系统 catpaw 简介2023-06-08 3.如何解决系统报错：nf_conntrack: table full, dropping packets2023-06-12 4.core dump 路径定义以及监控2023-06-13 5.机器硬件监控，最简单的方案，没有之一2023-06-14 6.如何监控文件变化，比如密码修改导致 shadow 文件变化2023-06-25 7.监控系统自监控怎么做？2023-07-10 8.FlashDuty Changelog 2023-09-07 | 新增深色模式与主题配置2023-09-25 9.FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心2023-09-25 10.FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心2023-10-13 11.FlashDuty Changelog 2023-10-30 | 告警路由与 Slack 应用2023-11-27 12.Flashduty 案例分享 - 益丰大药房2024-01-08 13.Flashduty 案例分享 - 途游游戏2024-01-10 14.FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成2024-01-17 15.像 Google SRE 一样 OnCall2024-01-19 16.专栏：手把手构建生产级监控系统2024-01-25 17.专栏：数据库、中间件的监控一网打尽2024-01-29

18.告警恢复时，如何拿到当前值2024-02-01

19.史上最简单的日志告警方案，没有之一2024-02-02 20.2 分钟，了解 4 个极为有用的 MetricsQL 函数2024-02-19 21.邮件告警还能这么玩？！2024-03-08 22.天天报警值班，老子不干了2024-03-23

在夜莺新版本中，告警规则直接使用 promql 来配置，阈值就包含在 promql 里面，所以恢复时是无法拿到当前值的，因为恢复时监控数据不达阈值，不达阈值就不会返回数据，所以也就无法拿到当前值。Prometheus 也是类似的问题，不过可以通过 go template 中的 query 函数曲线救国，但是不够直观，学习曲线较高。今天给大家介绍两种实现思路来解决这个问题。

思路一：查询的 promql 中不包含阈值，只包含过滤条件，直接去查询原始数据，告警引擎查到原始数据之后做阈值判定，不管是否触发阈值，都可以拿到当前值。
思路二：查询的 promql 中包含阈值，恢复时拿着相关标签去做二次查询，这样也可以拿到当前值。这种方式和 go template 中的 query 函数类似，相对会直观一些。

下面我以 Flashduty 产品为例，截图说明具体配置方式。

Flashduty 是一个告警事件中心，其产品介绍地址：https://flashcat.cloud/product/flashduty/ 。核心提供两个能力：1）告警事件中心，可以把夜莺、Zabbix、Prometheus、云监控等各类监控系统的告警汇聚在一个地方，做统一的告警收敛、聚合降噪、排班、认领、升级、派发、协作；2）Flashduty 也直接提供告警引擎的能力，可以对接 VictoriaMetrics、M3DB、Prometheus、ClickHouse、MySQL、Oracle、Postgres 等数据源，直接查询数据源的数据做告警判定，不需要额外的监控系统，告警事件的产生和分发，Flashduty 一肩挑。

方案一

以 Memcached 的某个告警规则举例，查询条件里不写阈值，判定规则里写阈值，如下图所示：

20240117103107

这种方式需要先查到当前值，再拿着当前值去做判定，所以不管是告警时还是恢复时，都可以拿到当前值。这种方式非常直观，大部分场景都适用。对于一个查询条件过滤到很多时序的场景，这种方式会查到特别多的数据，对告警引擎也是个压力。可以尝试方案二。

方案二

在 Flashduty 中，方案二称为「数据存在」的告警方式，这种方式只要查到数据就告警。需要在查询条件的 promql 中写阈值，比如：

cpu_usage_active{ident=~"dev-n9e.*", cpu="cpu-total"} > 85

具体页面配置如下：

20240117094116

这种设置方式就和 Nightingale、Prometheus 的做法一样了，自然会面临一样的问题，无法在告警判定时拿到阈值。针对这种写法，Flashduty 提供了一种方法，通过配置关联查询语句曲线救国拿到触发时的值，还是以 cpu_usage_active 这个指标为例，可以配置这样的关联查询以及备注描述：

20240117095412

其中关联查询的名字设置为 X（当然，你可以设置为其他名字），关联查询的语句也是一个 promql，用于精确查询具体的值，这里的 promql 可以引用标签变量，比如上例中的 ident="${ident}"，${ident} 就表示告警事件中的 ident 标签。之后在备注描述中写 if else 语句，针对告警、恢复两种情况分别写不同的获取值的方式。

关联查询其实非常灵活，不止是用于获取恢复时的值。比如 A 指标告警的时候想顺带看到 B 指标的值，或者日志告警 Error 数量触发阈值时看到日志详情，都可以使用关联查询来做到。

Flashduty 的告警引擎功能当前是公测阶段，欢迎免费体验，注册地址：

https://console.flashcat.cloud/

20240117104407

欢迎加我好友，交流可观测性相关话题或了解我们的商业产品，我的微信号：picobyte，加好友请备注您的公司、姓名、来意 🤝

扩展阅读：

posted @ 2024-02-01 13:26 IT运维监控阅读(151) 评论(0) 编辑收藏举报

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

告警恢复时，如何拿到当前值

方案一

方案二

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论