Prometheus 编写告警规则案例
Prometheus 编写告警规则案例
注:确保alertmanager配置完毕!
1、创建编辑文件:vim /usr/local/prometheus/rules/node.yml
# groups:组告警 groups: # name:组名。报警规则组名称 - name: general.rules # rules:定义角色 rules: # alert:告警名称。 任何实例5分钟内无法访问发出告警 - alert: NodeFilesystemUsage # expr:表达式。 获取磁盘使用率 大于百分之80 触发 expr: 100 - (node_filesystem_free_bytes{mountpoint="/",fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"} * 100) > 80 # for:持续时间。 表示持续一分钟获取不到信息,则触发报警。0表示不使用持续时间 for: 1m # labels:定义当前告警规则级别 labels: # severity: 指定告警级别。 severity: warning # annotations: 注释 告警通知 annotations: # 调用标签具体指附加通知信息 summary: "Instance {{ $labels.instance }} :{{ $labels.mountpoint }} 分区使用率过高" # 自定义摘要 description: "{{ $labels.instance }} : {{ $labels.job }} :{{ $labels.mountpoint }} 这个分区使用大于百分之80% (当前值:{{ $value }})" # 自定义具体描述
2、检查并重新加载配置文件
./promtool check config prometheus.yml
kill -hup 11853
3、控制台查看配置
4、调整阀值测试报警 调整到1%。 把配置文件的80改成1就行 - -。 然后记得再重新加载配置。
注:可以配置多个监控需要配置配置文件配置多个 -alert:。