一次zabbix代理队列积压的异常处理
【问题现象】
在查询多个监控网元性能数据时候,发现都有断点,查看采集程序都正常,而队列中有一个代理的队列突然积压了40多万个指标未处理
【处理过程】
1、查看proxy的日志情况,无任何异常信息反馈
2、查看代理对应的mysql,无异常等待时间
3、查看代理和数据库所在的主机性能,CPU、内存、网络、IO指标都正常
4、尝试重启数据库和代理进程,问题未解决
5、通过队列的“细节”选项,查看堵塞的监控项情况,发现有大量的容器主机节点的监控信息
6、查看对应主机的监控信息,发现通过自动发现模版,扫描出10多万个监控项
这个也是直接导致积压的原因
经确认,这一批容器节点中的pod之前出现接近一千多次的异常重启,使proxy产生大量异常的监控项导致
将这几个容器主机的监控置为失效后,队列瞬间恢复正常
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?