随笔分类 -  监控

摘要:curl -o /dev/null -X POST -s -w %{http_code} -i --connect-timeout 2 -m 8 xxx -o /dev/null:将响应体输出到 /dev/null(即丢弃响应体)。 -X POST:指定使用 POST 方法发送请求。 -s:静默模式 阅读全文
posted @ 2025-01-22 10:00 武平宁 阅读(51) 评论(0) 推荐(0)
摘要:action的调用的脚本中有sleep 300,阻塞了escalations进程。 阅读全文
posted @ 2023-11-02 11:47 武平宁 阅读(58) 评论(0) 推荐(0)
摘要:### 现象 配置了一个自定义监控项,超过 5m nodata 就会告警,最近触发了两次。通过日志查看,有一对相隔10分钟的告警: 时间t0: item xxx became not support: Timeout while executing a shell script. t0 + 10m 阅读全文
posted @ 2023-07-05 18:33 武平宁 阅读(662) 评论(0) 推荐(0)
摘要:使用zabbix的可计算监控项时遇到的问题 在agent异常退出的情况下,使用last()的监控项依然在产出数据! 分析解决 last()函数会跳过空值,取最后一个有效值计算。遍查文档,只有用avg(,60)替代的办法来解决。 阅读全文
posted @ 2023-04-18 18:07 武平宁 阅读(382) 评论(0) 推荐(0)
摘要:### 获取监控项列表 - 客户端发起请求 3次握手之后,请求监控项列表: `{"request":"active checks","host":"xx","host_metadata":"xx"}` - 服务端返回 监控项列表: ``` { "response":"success", "data" 阅读全文
posted @ 2023-04-12 11:11 武平宁 阅读(79) 评论(0) 推荐(0)
摘要:结论 最终确定的原因是被监控的主机上起了多个agentd程序,造成一批数据入库时有重复的数据导致入库失败,数据丢失。 问题描述 在 grafana上看到的绘图断断续续。 分析过程 1 性能瓶颈 一开始以为是哪里的性能遇到瓶颈,把服务器和zabbix的监控数据看了一遍,各个指标都没有问题。 2 上网百 阅读全文
posted @ 2023-04-07 10:53 武平宁 阅读(480) 评论(0) 推荐(0)
摘要:概念澄清 A variable is a placeholder for a value. # 变量是值的占位符。 # 参考文档:https://grafana.com/docs/grafana/latest/dashboards/variables/ 变量的valve,可以从主机组或在主机中提取, 阅读全文
posted @ 2022-10-14 16:06 武平宁 阅读(865) 评论(0) 推荐(0)
摘要:参考文档:zabbix 修改模板中单个主机的触发器 在主机的 Triggers,克隆后修改,再disable原来的触发器。 阅读全文
posted @ 2022-10-12 11:12 武平宁 阅读(156) 评论(0) 推荐(0)
摘要:以kafka为例,需要先对 topic-parttion 做发现,脚本如下 cat topic_parttion_discovery.py #!/usr/bin/env python import json import os cmd=os.popen("""sh /usr/local/kafka/ 阅读全文
posted @ 2022-10-11 14:29 武平宁 阅读(281) 评论(0) 推荐(0)
摘要:- 创建 .service 文件 ``` # /usr/lib/systemd/system/zabbix-agent.service [Unit] Description=Zabbix Agent After=syslog.target After=network.target [Service] 阅读全文
posted @ 2022-10-11 10:39 武平宁 阅读(247) 评论(0) 推荐(0)
摘要:在linux主机上,直接使用下面的命令创建容器即可 docker run -d --name=netdata \ -p 19999:19999 \ -v netdataconfig:/etc/netdata \ -v netdatalib:/var/lib/netdata \ -v netdatac 阅读全文
posted @ 2022-10-10 10:01 武平宁 阅读(41) 评论(0) 推荐(0)
摘要:zabbix 是以“**主机**”为单位来组织监控项的。 主机(Host)是一个你想要监控的**网络实体**(物理的,或者虚拟的)。它可以是一台物理服务器,一个网络交换机,一个虚拟机或者一些应用。 **主机配置模板**是主机配置的抽象,避免同类主机重复配置。 - 模板下载:[git.zabbix.c 阅读全文
posted @ 2022-08-29 11:42 武平宁 阅读(189) 评论(0) 推荐(0)
摘要:使用脚本记录每秒的net.if.out值,与zabbix中的lastdata值做对比,发现对不上。 #!/bin/bash dev=eth0 get_dev_net_speed() { dev_info=`cat /proc/net/dev | grep "${dev}"` send_bytes_1 阅读全文
posted @ 2022-08-29 10:51 武平宁 阅读(265) 评论(0) 推荐(0)