[zabbix]自定义监控和api进阶
[zabbix]自定义监控和api进阶 - 迁
正文
API部分
自定义监控项目
zabbix自动发现
可以在模板也可以在主机添加自动发现规则,这个自动发现和主机的自动发现不是一样的!
采用客户端方式
创建一个bmt.discovery的键值,加在客户端UserParameter自定义监控项中执行脚本
1
|
UserParameter=bmt.discovery, source /etc/profile && python /usr/local/zabbix-agent/shell/business_monitor .py |
这个脚本的作用是提取数据库sql并在目标数据库执行,将执行结果打到/tmp/tmp.zabbix.bm。
格式如下:
1
2
|
SQL_NAME_COL VALUE xxx_xxxx_message_RECVS 0 |
将key是唯一性的,由sql_name+column拼接成的为了查询出来的键值不重复
然后再通过监控项原型根据key提取此文件value值,而监控项原型的意义就在于利用自动发现的key去查询value,所以必须在原型项中定义后续的查询条件
{#SQL_NAME_COL}是根据bm.discovery上传的json中的key定义的
在客户端userParameter配置bmt原型项:
1
|
UserParameter=bmt.[*],python /usr/local/zabbix-agent/shell/bm_get_values .py $1 |
注意 commandType[MEMORY_STATUS, heap.max] zabbix参数用默认,分割
$1 ==> MEMORY_STATUS
$2 ==> heap.max
采用采集器方式
后面应用监控可以通过监控原型扩展预设值来判断业务历史预测值和实际值的偏差
使用采集器可以减轻proxy压力
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
# 上传监控值 def metric_sender(hostname,itemKeysList): # args[0] # 组装成zbx的 item # sys.exit() try : for item in itemKeysList: packet = [ ZabbixMetric(hostname, "commandType[%s]" % item.keys()[ 0 ],item.values()[ 0 ]) ] result = ZabbixSender(zabbix_server = ZABBIX_ENDPOINT,zabbix_port = 10051 ).send(packet) if result.failed: logger.error(u "主机上传[%s]上传监控值失败,上传数据[%s],结果[%s]" % (hostname, packet, result)) except IndexError as e: logger.error(u "IndexError %s [%s]" % e) except Exception as e: logger.error(u "%s [%s]" % (hostname,e)) else : logger.info(u "主机[%s]上传采集值成功" % hostname) |
自定义触发器
创建触发器, 告警时会将$1替换成告警阈值
3分钟平均
1
|
{ test -cif.base-98-13:commandType[MEMORY_STATUS,Usage /Max ].avg(3m)}>50 |
Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)
Recovery: 最近10分钟磁盘空间大于40GB。(恢复)
简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常(注意这个表达式,不是>40G哦),就算你剩余空间达到了39G(不在报警条件里)那也是没用的.
TRIGGER.VALUE的意义就在于连接前后的触发器,之后的业务告警也可以尝试用这个方法,可以大大减少告警反复
1
2
|
({TRIGGER.VALUE}=0&{server:vfs.fs.size[/, free ].max(5m)}<10G) | ({TRIGGER.VALUE}=1&{server:vfs.fs.size[/, free ].min(10m)}<40G) |
6次不等于0 的事件,出现4次以上就告警
1
|
{88lm-webpd-1-1.server.dt:xmty_balance_acctrans_account.count( #6,0,"ne")}>4 |
6分钟内,如果最后一次出现strlen >4 那么就成立
1
|
{88lm-webpd-1-1.server.dt:bmt.[xmty_message_greater_1k_ACTIVEMQ_MSGS].strlen(,6m)}>4 |
3个周期内匹配不到N,就报警
1
|
{88lm-webpd-1-1.server.dt:bmt.[xmty_message_greater_1k_ACTIVEMQ_MSGS].str(N, #3)}=0 |
count计数部分
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
参数:秒或 #num 支持类型:float,int,str,text,log 作用:返回指定时间间隔内数值的统计, 举例: count(600)最近10分钟得到值的个数 count(600,12)最近10分钟得到值的个数等于12 count(600,12, "gt" )最近10分钟得到值大于12的个数 count( #10,12,"gt")最近10个值中,值大于12的个数 count(600,12, "gt" ,86400)24小时之前的10分钟内值大于12的个数 count(600,,,86400)24小时之前的10分钟数据值的个数 第一个参数:指定时间段 第二个参数:样本数据 第三个参数:操作参数 第四个参数:漂移参数 |
支持比较符操作
1
2
3
4
5
6
7
|
eq : 相等 ne : 不相等 gt: 大于 ge : 大于等于 lt: 小于 le : 小于等于 like: 内容匹配 |
日常使用
1
2
3
4
5
|
上行流量最近两次都大于50M告警 {zabbix:net. if .out[em1].count( #2,50M,"gt")}=2 最近30分钟zabbix这个主机超过5次不可到达。 {zabbix:icmpping.count(30m,0)}>5 |