一文看懂Prometheus告警原理及过程

本文详细介绍了如何在Prometheus中自定义告警规则，包括规则构成、Prometheus配置、告警流程以及告警解除的处理方法，特别关注了告警解除后的通知策略。
摘要由CSDN通过智能技术生成
目录

1. 自定义告警规则

2. 告警规则编写

3. prometheus配置

4. 告警过程

5. 告警解除

5.1 对startsAt和endsAt的处理

5.2 Prometheus告警解除后持续多久重复推送告警解除通知？？

1. 自定义告警规则
基于规则告警是指利用已经采集的监控数据，匹配用户自定义的多维度告警规则，如果满足，则触发相应规则的告警。例如，性能告警规则一般是设定某个阈值、触发次数和告警行为，对于 CPU利用率、内存使用量、QPS等性能指标，如果在某个时间段内多次触发该阈值，则将其视为满足告警条件。

2. 告警规则编写
一条报警规则主要由以下几部分组成：

alert：告警规则的名称

expr：是用于进行报警规则 PromQL 查询语句

for：评估等待时间（Pending Duration），用于表示只有当触发条件持续一段时间后才发送告警，在等待期间新产生的告警状态为pending

labels：自定义标签，允许用户指定额外的标签列表，把它们附加在告警上

annotations：指定了另一组标签，它们不被当做告警实例的身份标识，它们经常用于存储一些额外的信息，用于报警信息的展示之类的。

告警规则示例：

3. prometheus配置
global:
# How frequently to scrape targets by default.
scrape_interval: 30s
# How long until a scrape request times out.
scrape_timeout: 10s
# How frequently to evaluate rules.
evaluation_interval: 1m
alerting:
alertmanagers:
- static_configs:
- targets:
- 172.0.20.1:8088

rule_files:
- ./rules/*.yml
Prometheus以scrape_interval（默认为1m）规则周期，从监控目标上收集信息。其中scrape_interval可以基于全局或基于单个metric定义；然后将监控信息持久存储在其本地存储上。

Prometheus以evaluation_interval（默认为1m）另一个独立的规则周期，对告警规则做定期计算。其中evaluation_interval只有全局值；然后更新告警状态。

4. 告警过程
1、告警流程图

流程描述：

1.Prometheus以5s（scrape_interval）一个采集周期采集状态；

2.根据采集到状态按照10s（evaluation_interval）一个计算周期，计算表达式；

3.表达式为真，告警状态切换到pending；

4.下个计算周期，表达式仍为真，且符合for持续10s，告警状态变更为active，并将告警从Prometheus发送给alert-manager；

5.下个计算周期，表达式仍为真，且符合for持续10s，持续发送告警给alert-manager。

5. 告警解除
5.1 对startsAt和endsAt的处理
1、两者都存在：不做处理

2、两者都未指定：startsAt指定为当前时间，endsAt为当前时间加上告警持续时间，默认为5分钟

3、只指定startsAt：endsAt指定为当前时间加上默认的告警持续时间

4、只指定endsAt：将startsAt设置为endsAt

即：如果 endsAt 没有提供，则自动等于 startsAt + resolve_timeout(默认 5m)

AlertManager一般以当前时间和告警实例的endsAt字段进行比较用以判断告警的状态：

* 若当前时间位于endsAt之前，则表示告警仍然处于触发状态（firing）

* 若当前时间位于endsAt之后，则表示告警已经消除（resolved）

Prometheus 需要持续地将 Firing 告警发送给 Alertmanager，遇到以下一种情况，Alertmanager 会认为告警已经解决，发送一个 resolved：

* Prometheus 发送了 Inactive 的消息给 Alertmanager，即 endsAt=当前时间

* Prometheus 在上一次消息的 endsAt 之前，一直没有发送任何消息给 Alertmanager

当告警没有再此触发时，多久后发送恢复的时间由什么因素决定：告警的endAt来决定。

告警的endAt默认情况下prometheus会设置为以下值来决定：

ts + max([check_interval], [resend_delay]) * 4

resendDelay，是程序启动参数 --rules.alert.resend-delay 规定的，默认 1m

interval，是我们配置的采集间隔

如果收到的告警里没有设置endAt，那么alertmanager设置endAt为以下值来决定：

now + resolve_timeout

即：对活跃告警的默认恢复时间决定为：如果发送方（prometheus等）指定了endAt，则以发送方为准，否则alertmanger统一设置为now + resolve_timeout，即一条告警等待了resolve_timeout还没收到新的告警内容，则视为恢复

5.2 Prometheus告警解除后持续多久重复推送告警解除通知？？
模拟告警解除过程，配置10分钟评估等待时长，

prometheus实际告警解除时间：2023-12-26 16:44:23.995

告警记录的告警解除时间：2023-12-26 16:54:49

prometheus停止推送告警解除通知：2023-12-26 16:58:23.995

结论：Prometheus告警解除后持续12分钟重复推送告警解除通知（间隔2分钟推送一次）
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/m0_58476313/article/details/135336755

posted @ 2024-09-12 13:46 技术颜良阅读(333) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Prometheus + Altermanager实现告警邮件通知

· Prometheus 企业微信报警/inhibit抑制 /静默

· 容器云平台监控告警体系（五）—— Prometheus发送告警机制

· Prometheus发送告警机制

· prometheus告警处理Alertmanager

阅读排行：
· DeepSeek “源神”启动！「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
· spring官宣接入deepseek，真的太香了~

公告

昵称：技术颜良
园龄： 7年3个月
粉丝： 212
关注： 26

+加关注

2025年2月

日

一

二

三

四

五

六

技术颜良

一文看懂Prometheus告警原理及过程

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论