zabbix异常处理解决方案
zabbix异常处理解决方案
1、zabbix批量添加一百多台交换机导致,可以登录zabbix但是所有的监控值都无数据
解决方案:
1》.查看zabbix-server.log
2》.提示内存溢出,需要更改配置文件,编辑配置文件vim /etc/zabbix/zabbix_server.conf 根据报错中的如下条目,确认为CacheSize参数配置有问题导致
9655:20220726:030200.288 [file:dbconfig.c,line:97] __zbx_shmem_realloc(): please increase CacheSize configuration parameter
》3.将zabbix服务端配置文件的如下参数做了调整:
]# cat /etc/zabbix/zabbix_server.conf|grep -E "^CacheSize"
CacheSize=1024M
# cat /etc/zabbix/zabbix_server.conf|grep -E "^StartHTTPPollers"
StartHTTPPollers=64
# cat /etc/zabbix/zabbix_server.conf|grep -E "^StartPingers"
StartPingers=128
#systemctl restart zabbix_server.service #修改完成后,重启zabbix服务
4》.将mysql的最大连接数调整为1000
echo "max_cnotallow=1000" >> /etc/my.cnf
systemctl restart mysqld.service
systemctl restart zabbix-server.service
二、报警提示More than 100 items having missing data for more than 10 minutes和Zabbix poller processes more than 75% busy错误。
[root@localhost zabbix]# vim /usr/local/zabbix/etc/zabbix_server.conf StartPollers=500 StartPollersUnreachable=50 StartTrappers=30 StartDiscoverers=6 CacheSize=1G CacheUpdateFrequency=300 StartDBSyncers=20 HistoryCacheSize=512M TrendCacheSize=256M HistoryTextCacheSize=80M ValueCacheSize=1Gd
三、server日志很多first network error, wait for 15 seconds报错
server配置文件Timeout时间改大点,我改成了30s。
四、zabbix告警“Zabbix poller processes more than 75% busy”
告警原因:
1.某个进程卡住了,
2.僵尸进程出错,太多,导致慢了
3.网络延迟(可忽略)
4.zabbix消耗的内存多了
告警危害:
普通告警,暂无危害(但是最好处理)
处理方法:
一:简单,粗暴(重启zabbix-server可结合定时任务使用)
service zabbix-server restart
crontab -e 调出Cron编辑器中增加一个计划:
@daily service zabbix-server restart > /dev/null 2>&1
二:编辑Zabbix Server的配置文件/etc/zabbix/zabbix_server.conf,找到配置StartPollers的段落:
### Option: StartPollers
# Number of pre-forked instances of pollers.
#
# Mandatory: no
# Range: 0-1000
# Default:
# StartPollers=5
取消StartPollers=一行的注释或者直接在后面增加:
StartPollers=10
将StartPollers改成多少取决于服务器的性能和监控的数量,将StartPollers设置成12之后就再没有遇到过警报。如果内存足够的话可以设置更高。
五、早上收到很多报警邮件,官网访问不了,很多服务器端口不通。但是用手机访问官网却可以访问,邮件里面很多Zabbix alerter processes more than 75% busy、Zabbix http poller processes more than 75% busy、和端口不通的报警信息。
由于之前优化过zabbix配置,所以觉得应该不是zabbix配置的问题。可能是那时候zabbix所在网络不通或者延时造成的(确认后是机房那边网络断开了2个小时,恢复后这些报警信息才发送出来了)。看来要针对zabbix服务器本身在异地做个监控,有时间弄个nagios看看。l
六、Utilization of poller processes over 75%
原因分析:
1.Zabbix的MySQL数据库卡了
2.Zabbix Server的IO卡了
3.Zabbix进程内存分配不足
4.客户端网络不通
vi/etc/zabbix/zabbix_server.conf
StartPollers=5
本文来自博客园,作者:聆听城市喧哗,转载请注明原文链接:https://www.cnblogs.com/fzhelpdesk/p/17969135