zabbix触发器详解

　　　　　　　　　　　　 zabbix触发器表达式详解

概述:触发器中的表达式使用很灵活，我们可以创建一个复杂的逻辑测试监控，触发器表达式形式如下:

{<server>:<key>.<function>(<parameter>)}<operator><constant>

{主机：key.函数(参数)}<表达式>常数，具体的例子，请接着往下走，很简单

Functions函数:触发器functions可以引用检索到的值，当前时间或者其他元素。触发器表达式支持的function完整列表请点击官网地址 supported functions

Function参数----大多数数值functions可以使用秒来作为参数。你可以使用前缀“#”来表示它有不同的含义

FUNCTION CALL	描述
sum(600)	600秒内的总和
sum(#5)	最新5个值的和

last函数使用不同的参数将会得到不同的值，#2表示倒数第二新的数据。例入从老到最新值为1,2,3,4,5,6,7,8,9,10，last(#2)得到的值为9，last(#9)得到的值为2。last函数必须包含参数。
AVG，count，last，min和max函数还支持额外的参数，以秒为单位的参数time_shift（时间偏移量）。例如avg(1h,1d)，那么将会获取到昨天的1小时内的平均数据。

[warning]备注：触发器表达式需要使用history历史数据来计算，如果history不可用（time_shift时间偏移量参数无法使用），因此history记录一定要保留长久一点，至少要保留需要用的记录。[/warning]
触发器表达式可以使用单位符号来替代大数字，例如5m替代300，或者1d替代86400,1k替代1024字节等等。

操作符

优先级	操作	定义
1	/	除
2	*	乘
3	-	减
4	+	加
5	<	小于. 用法如下: A<B ⇔ (A<=B-0.000001)
6	>	大于. 用法如下: A>B ⇔ (A>=B+0.000001)
7	#	不等于.用法如下: A#B ⇔ (A<=B-0.000001) \| (A>=B+0.000001)
8	=	等于. T用法如下: A=B ⇔ (A>B-0.000001) & (A<B+0.000001)
9	&	逻辑与
10	\|	逻辑或

触发器示例

示例---触发器名称：Processor load is too high on www.zabbix.com

{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5

触发器说明：

www.zabbix.com：host名称

system.cpu.load[all,avg1]：item值,一分内cpu平均负载值

last(0)：最新值

>5：最新值大于5

如上所示，www.zabbix.com这个主机的监控项，最新的CPU负载值如果大于5，那么表达式会返回true，这样一来触发器状态就改变为“problem”了。

示例二---触发器名称：www.zabbix.com is overloaded

{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(10m)}>2

当前cpu负载大于5或者最近10分内的cpu负载大于2，那么表达式将会返回true.

示例三---触发器名称：/etc/passwd has been changed,使用函数 diff():

{www.zabbix.com:vfs.file.cksum[/etc/passwd].diff(0)}>0

/etc /passwd最新的checksum与上一次获取到的checksum不同，表达式将会返回true. 我们可以使用同样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。这些zabbix一般都会自带，没带的你自己加上吧。

示例四----触发器名称：Someone is downloading a large file from the Internet,使用函数 min:

{www.zabbix.com:net.if.in[eth0,bytes].min(5m)}>100K

当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true

示例五---触发器名称：Both nodes of clustered SMTP server are down

{smtp1.zabbix.com:net.tcp.service[smtp].last(0)}=0&{smtp2.zabbix.com:net.tcp.service[smtp].last(0)}=0

当smtp1.zabbix.com和smtp2.zabbix.com两台主机上的SMTP服务器都离线，表达式将会返回true.

示例六---触发器名称：Zabbix agent needs to be upgraded，使用函数str():

{zabbix.zabbix.com:agent.version.str("beta8")}=1

如果当前zabbix agent版本包含beta8（假设当前版本为1.0beta8），这个表达式会返回true.

示例七---触发器名称：Server is unreachable

{zabbix.zabbix.com:icmpping.count(30m,0)}>5

如上表达式表示最近30分钟zabbix.zabbix.com这个主机超过5次不可到达。

示例八---触发器名称：No heartbeats within last 3 minutes，使用函数 nodata():

{zabbix.zabbix.com:tick.nodata(3m)}=1

tick 为Zabbix trapper类型，首先我们要定义一个类型为Zabbix trapper，key为tick的item。我们使用zabbix_sender定期发送数据给tick，如果在3分钟内还未收到 zabbix_sender发送来的数据，那么表达式返回一个true，与此同时触发器的值变为“PROBLEM”。

示例九---触发器名称：CPU activity at night time,使用函数 time():

{zabbix:system.cpu.load[all,avg1].min(5m)}>2&{zabbix:system.cpu.load[all,avg1].time(0)}>000000&{zabbix:system.cpu.load[all,avg1].time(0)}<060000

只有在凌晨0点到6点整，最近5分钟内cpu负载大于2，表达式返回true，触发器的状态变更为“problem”

示例十---触发器名称：Check if client local time is in sync with Zabbix server time,使用函数 fuzzytime():

{MySQL_DB:system.localtime.fuzzytime(10)}=0

主机MySQL_DB当前服务器时间如果与zabbix server之间的时间相差10秒以上，表达式返回true，触发器状态改变为“problem”

示例十一---触发器名称：Comparing average load today with average load of the same time yesterday (使用 time_shift 时间偏移量参数).

{server:system.cpu.load.avg(1h)}/{server:system.cpu.load.avg(1h,1d)}>2

This expression will fire if the average load of the last hour tops the average load of the same hour yesterday more than two times.

Hysteresis（迟滞,滞后）

简单的说触发器状态转变为problem需要一个条件，从problem转变回来还需要一个条件才行。一般触发器只需要不满足触发器为problem条件即可恢复。明白了么？不明白就看例子吧。
有时候触发器需要使用不同的条件来表示不同的状态，举个官网很有趣的例子：机房温度正常稳定为15-20°，当温度超过20°，触发器值为problem，直到温度低于15°才会接触警报，异常会解除。别整这些没用的，我们看实例.

为了达到这个效果，我们需要使用如下触发器表达式:

示例1---触发器名称：Temperature in server room is too high

({TRIGGER.VALUE}=0&{server:temp.last(0)}>20)|
({TRIGGER.VALUE}=1&{server:temp.last(0)}<15)

如上有两个小括号，前面一个表示触发异常的条件，后面一个表达式表示解除异常的条件。

注意：宏变量 {TRIGGER.VALUE}将会返回当前触发器的值

示例2---触发器名称：Free disk space is too low

Problem: 最近5分钟剩余磁盘空间小于10GB。（异常）

Recovery: 最近10分钟磁盘空间大于40GB。（恢复）

简单说便是一旦剩余空间小于10G就触发异常，然后接下来剩余空间必须大于40G才能解除这个异常，就算你剩余空间达到了39G（不在报警条件里）那也是没用的，有意思不！

({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10G) |
({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40G)

结尾

这篇文章很有必要细细读，很重要。

　　　　　　　　　　zabbix触发器依赖关系详解

概述

zabbix触发器可以设置依赖性，例如我配置了两个触发器，一个触发器定义www.ttlsa.com这个HOST是否在运行中，另一个是www.ttlsa.com的网络是否通畅。假如网络出现故障，但是ttlsa服务器并未出现故障，我们依旧会收到这两个触发器给到的故障通知。
现在的问题很明显，HOST是正常的，肯定不希望收到他的故障信息，因为它正常工作。所以在配置HOST触发器时，我们需要增加依赖关系，依赖网络是否畅通这个触发器。一旦网络出现故障，将不会出发HOST故障的通知。单个触发器可以依赖于多个触发器。

触发器依赖要点

一台HOST的触发器可以依赖其他HOST的触发器，但是注意不要有死循环依赖。比如A依赖B，B依赖C，C又依赖A。一个圆圈，没完没了。如下是A依赖B，B又依赖A，根本依赖不了，有如下报错。

zabbix触发器依赖(1)

一个模板的触发器可以依赖另外一个模板的触发器，例如模板A触发器依赖模板B触发器。一个HOST要链接A模板，那么它同时要链接A模板（因为模板A中的触发器依赖了模板B中的触发器），但是HOST可以单独链接模板B（B是被依赖）。在一个host单独链接template A，结果出现如下错误，所以别忘记了一起把template B也链接到HOST中。

zabbix触发器依赖(2)
模板中的触发器可以依赖HOST中的触发器。如果某个HOST链接这类模板，那么HOST创建的相应的触发器也同样会依赖那个HOST的触发器。举个官方的例子，某个模板中的一些触发器依赖了route/主机的触发器，凡事链接（理解为套用）了这个模板的机器都会依赖这些router/主机。说了那么多，其实就是继承了。
HOST中的触发器不能依赖模板中的触发器。

配置

编辑触发器，选择选项卡“dependencies”，点击Add，选择你需要依赖的触发器，如下图：

zabbix触发器依赖(3)

然后点击保存，可以看到触发器多了一个depend on

zabbix触发器依赖(4)

多个依赖实例

借用官方文档的示例，Host前面有个Router2，Router2前面有Router1，如下：

Zabbix - Router1 - Router2 - Host

如果Router1挂了，很明显Router2和Host连不上，我们不希望收到关于连不上Router2和HOST的通知，因此，我们定义了如下依赖关系：

'Host is down' trigger depends on 'Router2 is down'
trigger'Router2 is down' trigger depends on 'Router1 is down' trigger

在触发器将Host的状态改变为'Host is down'之前，它会检查host相关的依赖，这时候如果发现它依赖的触发器只要出现一个problem状态，那么当前触发器状态不会变化，这样一来action不会执行，报警通知sms/email自然也不会发送了。

zabbix会递归执行检测，如果router1或者router2有一个出现连不上，那么Host的触发器不会有任何的改变。

　　　　　　　　　　zabbix创建触发器trigger

1. 创建触发器

了解了什么触发器，接下来看下zabbix触发器怎么创建和配置，方法很简单，请大家往下读，有什么问题请留言。

创建触发器步骤:

点击Configuration（配置） → Hosts（主机）
点击hosts（主机）相关行的trigger
点击右上角的创建触发器（create trigger），你也可以修改列表中的触发器

在表单中输入相应的信息

2. 配置触发器

如下为触发器

zabbix触发器配置

参数介绍

参数	描述
Name	触发器名称. 名称可以包含宏变量： `{HOST.HOST}, {HOST.NAME}, {HOST.CONN}, {HOST.DNS}, {HOST.IP}, {ITEM.VALUE}, {ITEM.LASTVALUE}` and `{$MACRO}`. $1, $2…$9 可以被用来关联表达式的常量示例： name：Processor load above $1 on {HOST.NAME}” 表达式：system.cpu.load[percpu,avg1].last(0)}>5 会显示为：Processor load above 5 on ttlsa云服务器
Expression	计算触发器状态的逻辑表达式，这边设置为上一次值等于0
Multiple PROBLEM events generation	通过设置该选项，你可以在触发器产生problem的时候触发一个事件
Description	触发器的描述,一般name写的不清楚，这边可以具体描述这个触发器的作用，例如nginx当前离线，请处理等等。Zabbix 2.2版本开始，支持触发器名称。
URL	在Monitoring → Triggers中，可以看到URL并且可以点击，一般情况下他需要配合触发器ID来使用，在url中包含触发器ID（宏变量 {TRIGGER.ID}），这样可以直接点击到具体触发器中。
Severity	设置严重性级别,上图我设置为“灾难”,你可以相应的设置警告、严重等状态的触发器
Enabled	当前触发器是否启用

3. 触发器依赖

上图大家可以看到有个Dependencies，他是做什么的? 翻译为依赖，具体的用法我们后面章节来讲

　　　　zabbix触发器严重性定义Trigger severity

severity通常用来定义当前item的一个状态的严重性。我们可以根据不同的严重性来定义不同的事件，例如报警，zabbix自带如下严重性定义。

Trigger severity表格

SEVERITY	DEFINITION	颜色
Not classified	未知.	灰色
Information	一般信息.	浅绿
Warning	警告	黄色
Average	一般问题.	橙色
High	严重问题.	红色
Disaster	灾难,会带来损失的那种.	深红

severities 用途

可视化显示，不同级别显示不同颜色，例如一般严重性为绿色
声音报警,不同的级别不同声音.
使用用户自定义媒体报警，例如严重问题发短信，其他问题发送邮件。
根据严重性来定义是否报警

可以自定义触发器严重性以及颜色，请参考：customise trigger severity names and colours.

　　　　　　　　zabbix自定义触发器严重性　　　　

触发器严重性介绍

触发器严重性命名以及颜色定义都可以在zabbix web后台定义，点击Administration（管理） → General （常规）→ Trigger severities（触发器严重性）。这边定义好的颜色在每个不同主题/风格里面都是一样的。
所有系统默认的触发器名字在各国的语言包中都有翻译，但是你自定义的其他语言包不会给你翻译，因为在语言包里面没有这一个项目。那么怎么保证各国语言包里面都能相应的翻译自定义的严重性呢?
我们知道zabbix默认定义了6个触发器严重性，分别为：Not classified、Information、Warning、Average、High、Disaster，有些人觉得High不好理解或者觉得描述不满意，想改成Important，请看如下操作：

设置触发器名称

点击Administration（管理） → General （常规）→ Trigger severities（触发器严重性），将High改为important，当然这里你也可以自定义你的颜色，我们这边就不再敖述了，修改完之后点击保存。

zabbix修改严重性名称

添加内容到frontend.po

# /data/site/monitor.ttlsa.com/locale/en_US/LC_MESSAGES/frontend.po
msgid "Important"
msgstr "very Import"

[warning]备注：/data/site/monitor.ttlsa.com/是您zabbix站点根目录[/warning]

创建.mo文件

需要执行locale目录下的make_mo.sh文件，如果出现./make_mo.sh: line 4: msgfmt: command not found，那么请你先安装msgfmt

# yum install gettext

然后执行make_mo.sh

# ./make_mo.sh

效果

随意选择一个Host的触发器列表，看左边信息，请看如下图<

severities修改并翻译

在自定义触发器名称之前应该显示High的，这边被我们修改成了Very Import。zabbix是一个多语言监控系统，如果你想切换到中文环境，那么你需要修改zh_CN下的frontend.po，然后make_mo.sh创建frontend.mo。否则将只会显示Important，如下：

severities未翻译

这边直接显示触发器的MSGID，因为你没翻译。

最后

6个触发器级别，名称随你修改，但是大多数情况下我们都不需要修改，默认的挺好的，不是吗？非要自定义，我不拦你。

　　　　　　zabbix获取上一个值prev zabbix触发器函数

zabbix触发器方法prev用于获取item前一个返回值，与方法last(#2)是同样的意思

zabbix触发器方法prev - web界面

zabbix获取前一个返回值

如下是web界面提供的功能：

Previous value is > N
Previous value is < N
Previous value is = N
Previous value is NOT N

zabbix触发器方法prev - 实例

CPU前一个负载值大于0.7

{dd-pre-01:system.cpu.load[percpu,avg1].prev()}>0.7

或者使用last获得同样的效果

{dd-pre-01:system.cpu.load[percpu,avg1].last(#2)}>0.

zabbix触发器方法prev - 支持类型

它支持类型包括：float, int, str, text, log

　　　　　zabbix获取当前UNIX时间戳now zabbix触发器函数

获取当前UNIX时间戳，UNIX时间戳是什么？当前距离1970年1月1日00:00:00一共多少秒。使用zabbix触发器函数：now()，举一个简单的例子。

2020年1月1日0时0分0秒（UNIX时间戳：1577808000）到2020年2月1日0时0分0秒（UNIX时间戳：1580486400）之间，cpu1分钟负载大于1触发告警。例子意义不大，希望大家举一反三。

{ttlsa-server:system.cpu.load[all,avg1].last()}>1 and
{ttlsa-server:system.cpu.load[all,avg1].now()}>1577808000 and
{ttlsa-server:system.cpu.load[all,avg1].now()}<1580486400

　　　　　　zabbix取平均值avg zabbix触发器函数

zabbix触发器方法avg与上一节的abschange多了时间概念。上一节仅仅是取前后两个值对比，avg有如下取值方式：

最后N个值
最近XX时间，例如最近1h
以上1和2还要结合time_thift时间偏移参数，例如1h

zabbix-function-avg

zabbix触发器方法avg - web界面

如下是web界面提供的功能：

Average value of a period is < N
Average value of a period is > N
Average value of a period is = N
Average value of a period is NOT N

zabbix触发器方法avg - 实例

CPU负载最近一小时平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h)}=1

CPU负载昨天当前时间的上一小时平均值等于1，1d表示时间往前推移1天，你可以写1h，1m，10d，现在明白了time_thrift的用法了吧？

{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h,1d)}=1

CPU负载最近10次的平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10)}=1

昨天同一时间CPU负载最近10次的平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10,1d)}=1

zabbix触发器方法avg - 支持类型

它支持类型包括：float, int，能平均的除了数字还有谁？

　　　　　　获取最大值max zabbix触发器函数

zabbix触发器函数max - 作用

有如下作用：

获取一个时间周期内最大值
获取几个返回值中的最大值
以上方法，时间往前推移1分钟，1小时，1天等等

zabbix触发器函数max - 对应web

文字如下

Maximum value for period T is > N
Maximum value for period T is < N
Maximum value for period T is = N
Maximum value for period T is NOT N

zabbix触发器函数max - 例子

语法：max (sec|#num,<time_shift>)

一个小时内cpu负载最大值超过10

{dd-pre-01:system.cpu.load[percpu,avg1].max(1h)}>10

cpu负载最近10个返回值，最大值超过10

{dd-pre-01:system.cpu.load[percpu,avg1].max(#10)}>10

　　　　　　　　　　最小值min zabbix触发器函数

功能和上一节将的max整好相反，我们将结合max、min来一个更有意思的实例。

zabbix触发器函数min - 作用

，有如下作用：

获取一个时间周期内最小值
获取几个返回值中的最小值
以上方法，时间往前推移1分钟，1小时，1天等等

zabbix触发器函数min - 对应web

文字如下

Minimum value for period T is > N
Minimum valuefor period T is < N
Minimum value for period T is = N
Minimum value for period T is NOT N

zabbix触发器函数min - 例子

语法：min(sec|#num,<time_shift>)

一个小时内cpu负载最小值小于0.2

{dd-pre-01:system.cpu.load[percpu,avg1].min(1h)}<0.2

cpu负载最近10个返回值，最小值小于0.2

{dd-pre-01:system.cpu.load[percpu,avg1].min(#10)}<0.2

zabbix触发器函数min/max - 实例

触发器名称：Free disk space is too low

Problem: 最近5分钟剩余磁盘空间小于10GB。（异常）

Recovery: 最近10分钟磁盘空间大于40GB。（恢复）

讲解：简单说便是一旦剩余空间小于10G就触发异常，然后接下来剩余空间必须大于40G才能解除这个异常，就算你剩余空间达到了39G（不在报警条件里）那也是没用的.

({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,free].max(5m)}<10G)  or 
({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,free].min(10m)}<40G)

　　　　　　　　abschange前后差值 zabbix触发器函数

监控实战中，每个同学对触发器告警条件要求各不相同，so，zabbix提供了几十个方法提供使用。部分人对以下功能也不甚了解。接下来，我会一一讲解下图function与zabbix提供function的对应关系，以及他们的功能。

zabbix-function

zabbix取前后差值（绝对值）- abschange

如下是web界面提供的功能：

Absolute difference between last and previous value is = N

Absolute difference between last and previous value is > N

Absolute difference between last and previous value is < N

Absolute difference between last and previous value is NOT N

通过实例来一一了解它，例子也许很滑稽很不合理，但是大家可以举一反三，它只是一个例子

如果（每核）CPU 1分钟负载浮动1（突然增加1，1分钟后又降低1）

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}=1

如果（每核）CPU 1分钟负载浮动大于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}>1

如果（每核）CPU 1分钟负载浮动小于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<1

如果（每核）CPU 1分钟负载浮动不等于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<>1

abschange支持类型

它支持类型包括：float, int, str, text, log，它不仅仅支持数值，还支持字符串。如果取值为字符串，那么字符串相同值为0，不同则为1

如下为主机名发生变更的触发器表达式

{ttlsa-web-01:system.hostname.abschange()}=1

来源：http://www.ttlsa.com/zabbix/

posted on 2016-09-03 11:21 losbyday 阅读(26684) 评论(0) 收藏举报

刷新页面返回顶部