Prometheus监控系统(4)pushgateway及自定义脚本
一、pushgateway的作用
传统监控软件如Zabbix通常都建议使用push的方式来由客户端推送数据给服务端,这样可以减轻服务端压力。但是这样也有个弊端就是配置更为复杂,需要在每个agent上都配置server的地址才可以感知到server的存在。虽然Prometheus默认已经是采用pull的方式来主动拉取数据,但是在某些情况下还是会使用更灵活的push方式,比如需要监控的项目生命周期很短,需要主动上报数据给服务端,这个时候就可以使用Prometheus的pushgateway来实现push方式的监控。Prometheus不再需要自己去拉取数据,而是让用户通过自定义的Shell脚本把需要的数据发送给pushgateway,然后再由pushgateway推送数据给Prometheus。pushgateway是可以单独运行在任何节点上的插件,不一定要在被监控客户端上。
二、配置pushgateway方式监控
1、在Prometheus官网下载pushgateway组件。下载地址是https://prometheus.io/download/
2、将压缩包解压并运行pushgateway程序,默认会监听在9091端口
1
|
. /pushgateway |
3、修改prometheus的配置文件,给pushgateway定义一个job
1
2
3
|
-job_name: 'pushgateway_test' #这个名称可以自定义,后面会用到 static_configs: - targets: [ '192.168.100.110:9091' ] #这里是pushgateway的地址 |
4、自定义脚本采集数据,这里以监控timewait的数量为例
1
2
3
4
5
6
7
|
vi count_netstat_wait_connections.sh #!/bin/bash instance_name=` hostname -f | cut -d '.' -f1` #获取本机名,用于后面的的标签 label= "count_netstat_wait_connections" #定义key名 count_netstat_wait_connections=` netstat -an | grep -i wait | wc -l` #获取数据的命令 echo "$label: $count_netstat_wait_connections" echo "$label $count_netstat_wait_connections" | curl --data-binary @- http: //server .com:9091 /metrics/job/pushgateway_test/instance/ $instance_name #这里pushgateway_test就是prometheus主配置文件里job的名字,需要保持一致,这样数据就会推送给这个job。后面的instance则是指定机器名,使用的就是脚本里获取的那个变量值 |
5、将脚本加入到计划任务中,定时推送数据,如果希望监控时长小于一分钟,可以使用sleep方法
6、在Prometheus界面使用自定义的key获取数据测试
实例操作:
python3 查询influxdb的数据 #!/usr/bin/env python3 # -*- encoding: utf-8 -*- import datetime as dt import re import sys import os from influxdb import InfluxDBClient def influxdb_query(): host = '10.96.66.79' port = 8086 user = 'root' password = 'root' dbname = 'telegraf' query = 'select last(value) from iostat_info;' client = InfluxDBClient(host, port, user, password, dbname) # print("Querying data: " + query) result = client.query(query) result_list = list(result)[0] print(result_list[0]["last"]) influxdb_query()
shell 调用python的返回值, 并将值推送给 pushgateway
#!/bin/bash instance_name="测试环境的iostat信息" label="iostat_info_value" iostat_info_value=`python3 influxdb_query.py` echo "$label: ${iostat_info_value}" echo "$label: ${iostat_info_value}" | curl --data-binary @- http://172.16.234.60:9091/metrics/job/pushgateway_test/instance/$instance_name
prometheus 配置 相关的 job_name 信息:
- job_name: 'pushgateway_test' scrape_interval: 5s honor_labels: true static_configs: - targets: ['172.16.234.60:9091'] 重启 prometheus: :kill -HUP $(ps aux|grep prometheus |awk 'NR==1{print $2}')
执行脚本 sh iostat_info_value.sh 查看promethus 信息, 数据已经产生
脚本监控gitlab的备份文件 cat gitlab_backup_monitor_to_prometheus.sh #!/bin/bash instance_name="gitlab备份文件监控" label="gitlab_backup_file_monitor" gitlabfile_nums_value=`cd /data3/wjj/gitlabbak && ls |grep -c gitlab` echo "$label: ${gitlabfile_nums_value}" echo "$label ${gitlabfile_nums_value}" | curl --data-binary @- http://47.*****.**:9091/metrics/job/pushgateway_test/instance/$instance_name
监控规则 cat pushgateway.yml groups: - name: gitlab-backup_file-monitor rules: - alert: gitlab-backup_file-failed expr: gitlab_backup_file_monitor < 5 for: 1m labels: severity: critical annotations: summary: gitlab backup files is less than 5pcs. description: "gitlab backup process failed"