zabbix 4.0故障归纳

1. Zabbix poller processes more than 75% busy

  • 告警信息:
Problem: Zabbix poller processes more than 75% busy

告警主机: Zabbix server 127.0.0.1
告警时间: 2019.07.05 11:02:34
告警等级: Average
问题详情:Utilization of poller data collector processes, in %:100 %
事件ID: 8172
  • 分析原因:

    • 支持zabbix的某个进程卡住
    • zabbix进程分配内存不足
    • zabbix IO卡住
  • 解决方法:

    • 第一种方法:写个cron定时重启zabbix-server。原理不说了,windwos卡的时候是不是重启。。。。。
    • 第二种方法:增加zabbix server启动时初始化的进程数量,这样会导致轮询时的负载增加,但是每个进程繁忙程度会一定比例减轻,操作如下:
[root@zabbix ~]# sed -i.bak 's@# StartPollers=5@StartPollers=10@g' /etc/zabbix/zabbix_server.conf
[root@zabbix ~]# systemctl restart zabbix-server.service

2. Not all processes could be identified

  • 告警信息:
      其实监控服务端口,用zabbix自带的模板会很方便,但是因为我两个程序端口冲突了,不得已,只能自定义一个监控项,如下:
# zabbix-agent自定义监控项如下,为了契合zabbix的返回值,这里特意设置为正常返回1,异常返回0:
[root@wula zabbix_agentd.d]# pwd
/etc/zabbix/zabbix_agentd.d
[root@wula zabbix_agentd.d]# tail -1 userparameter_mysql.conf 
UserParameter=monitor.wula,netstat -lntp | grep 7777 &>/dev/null && echo 1 || echo 0
# 在zabbix-server端尝试拉取值,如下,能取到值,但是多了一坨东西:
[root@zabbix ~]# zabbix_get -s 77.77.77.77 -k monitor.wula
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
1
  • 分析原因:

  查询资料发现是因为使用了netstat -p的参数,zabbix的账户是没有使用 -p 参数的权限的,所以会有此提示。

  • 解决方法:

    • 第一种方法:把 -p 参数拿掉就行了。
    • 第二种方法:授权netstat命令给非root用户。
[root@wula zabbix_agentd.d]# chmod +s /bin/netstat

3. Zabbix housekeeper processes more than 75% busy

  • 告警信息:
Problem: Zabbix housekeeper processes more than 75% busy

告警主机: Zabbix server 127.0.0.1
告警时间: 2019.07.23 16:01:37
告警等级: Average
问题详情:Utilization of housekeeper internal processes, in %:100 %
事件ID: 38356
  • 分析原因:

    • 为了防止zabbix-server中的数据库持续增大,zabbix有自动删除历史数据的机制,即housekeeper,而略频繁的删除mysql数据就会导致性能降低而告警
    • zabbix_server.conf中的HousekeepingFrequency参数就是调整删除的频率的。
  • 解决方法:

[root@zabbix zabbix]# pwd
/etc/zabbix
[root@zabbix zabbix]# vim zabbix_server.conf
HousekeepingFrequency=12    # 多久删除一次,小时为单位
MaxHousekeeperDelete=100000    # 最大删除量
[root@zabbix zabbix]# systemctl restart zabbix-server

未完待续......


写作不易,转载请注明出处,谢谢~~

posted @ 2019-07-05 11:34  merlee  阅读(3768)  评论(0编辑  收藏  举报