通过pushgateway 推送的一批机器的nodeexporter,怎么判断这批机器是否有宕机的,已解决
上回说到,即使你的监控已经下线,prometheus 还会拉取到旧的监控数据,需要手动清理 pushgateway 不要的数据。
但是这样并不符合我们监控的预期,尤其是对于pushgateway获取的机器如果宕机的话,就会收不到告警,本文针对此问题做一个处理
给node-exporter增加一个告警项,unix时间戳,这里采用node-exporter的文件扩展方式,详情参考:
https://www.cnblogs.com/jasmine456/p/18305866
这里不再赘述,
node-exporter --collector.textfile.directory=/host/data/exporter/key/
1. 定义unix时间戳监控项,test_pwd_node_exporter_up
cat /opt/workerdir/node_exporter/key/test_runner
#!/bin/bash
echo test_pwd_node_exporter_up `date +%s`
2. 定义一个定时任务,每分钟执行一次
echo "* * * * * /bin/bash /opt/workerdir/node_exporter/key/test_runner > /opt/workerdir/node_exporter/key/test.prom" >> /var/spool/cron/crontabs/root
3. 查询node-exporter是否拿到该数据
curl -s 127.0.0.1:9100/metrics| grep test
node_textfile_mtime_seconds{file="/host/opt/workerdir/node_exporter/key/test.prom"} 1.721370181e+09
# HELP test_pwd_node_exporter_up Metric read from /host/opt/workerdir/node_exporter/key/test.prom
# TYPE test_pwd_node_exporter_up untyped
test_pwd_node_exporter_up 1.721370181e+09
确定拿到之后,可以去prometheus去验证下,
4. 再rule配置告警rule文件
表达式:
time() - test_pwd_node_exporter_up > 300 or up ==0
获取到时间戳大于5min,告警或者 prometheus自定义的up函数 为0,告警
groups:
- name: 实例存活报警
rules:
- alert: 服务器宕机报警
# expr: up == 0
expr: time() - test_pwd_node_exporter_up > 300 or up ==0
for: 1m
labels:
severity: emergency
level: critical
annotations:
# description: '服务器 {{ $labels.instance }}宕机'
summary: "Node {{ $labels.instance }} down"
description: "Node {{ $labels.instance }} has been down for more than 5 minutes."
5. 重载prometheus配置
curl -X POST http://10.20.6.115:9090/-/reload
收到告警,至此解决了pushgateway 推送后端的nodeexporter,不能监控宕机的问题。
之前一直在纠结不能使用up函数,官方其实也知道这个问题,但是搜了一圈没有好的解决方案,
官方讨论链接:https://github.com/prometheus/pushgateway/discussions/543
有兴趣的小伙伴可以参与讨论下
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?