群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步。例如:通过聚合GitHub,GitLab等源码管理服务,实现源码更新同步;通过聚合Trello,JIRA等项目协调服务,实现项目信息同步。不仅如此,群机器人支持Webhook协议的自定义接入,支持更多可能性. 比如我们可将Zabbix运维报警提醒通过自定义机器人聚合到钉钉群中,以实现钉钉告警。下面记录下Zabbix通过钉钉告警的设置过程:
一. 钉钉机器人创建
登录钉钉客户端,创建一个群,把需要收到报警信息的人员都拉到这个群内.然后点击群右上角的"群机器人"->"添加机器人"->"自定义",记录该机器人的webhook值!
二. Zabbix设置
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
|
vim /usr/local/zabbix/etc/zabbix_server.conf AlertScriptsPath= /usr/local/zabbix/alertscripts 登录到 /usr/local/zabbix/alertscripts 下编写dingding.py脚本(脚本中包含钉钉机器人的webhook值):
cd /usr/local/zabbix/alerscripts/
vim dingding.py #!/usr/bin/env python #coding:utf-8 #zabbix钉钉报警 import requests,json,sys,os,datetime webhook= "https://oapi.dingtalk.com/robot/send?**********************************************" user=sys.argv[1] text=sys.argv[2] data={ "msgtype" : "text" , "text" : { "content" : text }, "at" : { "atMobiles" : [ user ], "isAtAll" : False } } headers = { 'Content-Type' : 'application/json' } x=requests.post(url=webhook,data=json.dumps(data),headers=headers) if os.path.exists( "/usr/local/zabbix/logs/dingding.log" ): f= open ( "/usr/local/zabbix/logs/dingding.log" , "a+" ) else : f= open ( "/usr/local/zabbix/logs/dingding.log" , "w+" ) f.write( "\n" + "--" *30) if x.json()[ "errcode" ] == 0: f.write( "\n" +str(datetime.datetime.now())+ " " +str(user)+ " " + "发送成功" + "\n" +str(text)) f.close() else : f.write( "\n" +str(datetime.datetime.now()) + " " + str(user) + " " + "发送失败" + "\n" + str(text)) f.close() 创建上面脚本中的日志路径:
touch /usr/local/zabbix/logs/dingding.log
chown zabbix:zabbix dingding.py
chmod 777 dingding.py
chown zabbix:zabbix /usr/local/zabbix/logs/dingding.log 手动测试脚本发信是否正常: 这是条文档记录的测试信息,忽略
./dingding.py test 13611027803 "这是条测试信息,忽略" =========================================================== 注意:该脚本要求至少python2.6.6版本,且具有requests模块. 否则会报错: Traceback (most recent call last): File "./dingding.py" , line 4, in <module> import requests,json,sys,os,datetime ImportError: No module named requests 解决办法:
yum -y install python-pip
pip -v
pip install requests =========================================================== |
三. Zabbix监控界面设置
1) 创建报警媒介.
三个参数分别是:
{ALERT.SENDTO}
{ALERT.SUBJECT}
{ALERT.MESSAGE}
2) 用户添加报警媒介
收件人是钉钉上的手机号码.这里使用Admin管理员用户,在Admin用户的"报警媒介"里添加收件人信息
特别注意:这里只需要添加钉钉群里的任何一个成员的手机号码即可,即添加一个收件人,这样在机器人群里成员都能看到告警信息.
如果添加多个收件人,则机器人群里就会发送多个告警信息,一个收件人发一条信息.
3) 添加动作
动作里的报警信息和恢复信息都发送给Admin用户.
操作:
默认标题:
服务器:{HOST.NAME}发生: {TRIGGER.NAME}故障!
消息内容:
告警主机:{HOST.NAME}
告警地址:{HOST.IP}
监控项目:{ITEM.NAME}
监控取值:{ITEM.LASTVALUE}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
告警时间:{EVENT.DATE} {EVENT.TIME}
事件ID:{EVENT.ID}
当前状态:{TRIGGER.STATUS}
恢复操作:
默认标题:
服务器:{HOST.NAME}: {TRIGGER.NAME}已恢复!
消息内容:
告警主机:{HOST.NAME}
告警地址:{HOST.IP}
监控项目:{ITEM.NAME}
监控取值:{ITEM.LASTVALUE}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
告警时间:{EVENT.DATE} {EVENT.TIME}
恢复时间:{EVENT.RECOVERY.DATE} {EVENT.RECOVERY.TIME}
持续时间:{EVENT.AGE}
事件ID:{EVENT.ID}
当前状态:{TRIGGER.STATUS}
确认操作:
默认标题:
服务器:{HOST.NAME}: 报警确认
消息内容:
确认人:{USER.FULLNAME}
时间:{ACK.DATE} {ACK.TIME}
确认信息如下:
"{ACK.MESSAGE}"
问题服务器IP:{HOSTNAME1}
问题ID:{EVENT.ID}
当前的问题是: {TRIGGER.NAME}
然后进行测试,比如关闭一台被监控机器的vsftpd服务,过一会儿,查看下钉钉上的报警信息。
还可以查看dingding.log日志,看看告警信息发送情况: