Prometheus监控神器-Alertmanager篇(3)
本章主要对介绍什么是
Silences
, 在哪些场景中使用、以及如何设置 警报临时静默Silences
。
静默 Silences
是指让通过设置让警报在指定时间暂时不会发送警报的一种方式。通常静默一般用于解决严重生产故障问题时,因所花费的时间过长,通过静默设置避免接收到过多的无用通知。在已知的例行维护中,为了防止对例行维护的机器发送不必要的警报,可以在
维护期间设置一个时间范围,临时关闭警报发送,等待维护完成,在将静默关闭,另外主要下自己的时区,这里使用的是UTC时间做的测试。
设置 Silences的方式有俩种,一直是通过 WEB UI 配置,一种是通过 amtool 工具在命令行进行设置。
Silences 创建信息描述:
名字 | 描述 |
---|---|
Start |
静默的开始时间 |
End |
静默的结束时间 |
Duration |
自动计算静默时间,就是说开始以后,剩余的时间会在此显示 |
Matches |
使用Labels来识别需要静默的警报,可以直接匹配,也可以使用正则表达式。 |
Creator |
创建者名称 |
Comment |
描述信息 |
通过上面的描述其实可以很容易知道需要制定的参数信息,当输入完成后,直接点击create创建即可,此时去触发警报就会发现,警报不会在通知,下面是已创建好的Silences信息。
这个时候我们可以使用 service process_exporter stop
来触发警报,查看静默是否生效,在浏览器我们可以看到,触发的警报已经出现在我们创建的 Silences 中了。
这个时候我们可以假设维护,并没有完成,用 Expire
来模拟维护时间达到,然后在 Alerts
中我就可以看到警报了,相关的通知会发送到对应的Receiver中。