2 分钟，了解 4 个极为有用的 MetricsQL 函数

合集 - FlashDuty(22)

1.玩转Zabbix智能告警：降噪、排班、认领、升级、IM协同2023-05-16 2.太卷了，史上最简单的监控系统 catpaw 简介2023-06-08 3.如何解决系统报错：nf_conntrack: table full, dropping packets2023-06-12 4.core dump 路径定义以及监控2023-06-13 5.机器硬件监控，最简单的方案，没有之一2023-06-14 6.如何监控文件变化，比如密码修改导致 shadow 文件变化2023-06-25 7.监控系统自监控怎么做？2023-07-10 8.FlashDuty Changelog 2023-09-07 | 新增深色模式与主题配置2023-09-25 9.FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心2023-09-25 10.FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心2023-10-13 11.FlashDuty Changelog 2023-10-30 | 告警路由与 Slack 应用2023-11-27 12.Flashduty 案例分享 - 益丰大药房2024-01-08 13.Flashduty 案例分享 - 途游游戏2024-01-10 14.FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成2024-01-17 15.像 Google SRE 一样 OnCall2024-01-19 16.专栏：手把手构建生产级监控系统2024-01-25 17.专栏：数据库、中间件的监控一网打尽2024-01-29 18.告警恢复时，如何拿到当前值2024-02-01 19.史上最简单的日志告警方案，没有之一2024-02-02

20.2 分钟，了解 4 个极为有用的 MetricsQL 函数2024-02-19

21.邮件告警还能这么玩？！2024-03-08 22.天天报警值班，老子不干了2024-03-23

夜莺社区的朋友如果问时序库的选型，我一般都会推荐 VictoriaMetrics，除了其性能、稳定性、集群扩展能力之外，VictoriaMetrics 还扩展了 PromQL，提供了 MetricsQL，即增强了 PromQL 的能力。比如下面介绍的场景，就很适合用 MetricsQL 来解决。

需求

某个指标（假设指标名字是 interface_status ）每分钟上报一次，如果 5 分钟内有 3 次大于 x 的值，就报警。

解法

如果使用 PromQL，就比较难写了，而 MetricsQL 就很简单，如下：

count_gt_over_time(interface_status[5m], x) >= 3

看到这个写法，基本能直观理解其含义了 count_gt_over_time(series_selector[d], gt) 函数有两个参数，一个是 range-vector，一个是标量 gt，表示在 range-vector 中大于 gt 的个数，如果大于等于 3，就报警。除了 count_gt_over_time 函数之外，还有 count_le_over_time、count_ne_over_time、count_eq_over_time 道理相同。

思考

假设我们知道原始数据上报频率，如果使用 promql 来实现上述需求，应该怎么写呢？欢迎评论区留言分享 :)

另外

最近我们开放了 FlashDuty 的告警引擎能力，可以直接对接各类时序库、数据库、ClickHouse、ElasticSearch、Loki 等日志库，对数据做异常判断，直接生成告警事件。换句话说，不再需要夜莺、Alertmanager、Elastalert 等告警引擎，Flashduty 就可一肩挑。在线体验地址：https://console.flashcat.cloud/ 菜单入口：「告警管理」。截图如下：

20240130090320