随笔分类 - 监控
[item] curl 超时返回 0
摘要:curl -o /dev/null -X POST -s -w %{http_code} -i --connect-timeout 2 -m 8 xxx -o /dev/null:将响应体输出到 /dev/null(即丢弃响应体)。 -X POST:指定使用 POST 方法发送请求。 -s:静默模式
记一次 zabbix item became not supported 问题处理
摘要:### 现象 配置了一个自定义监控项,超过 5m nodata 就会告警,最近触发了两次。通过日志查看,有一对相隔10分钟的告警: 时间t0: item xxx became not support: Timeout while executing a shell script. t0 + 10m
zabbix 可计算监控项使用 last() 与 avg() 的区别
摘要:使用zabbix的可计算监控项时遇到的问题 在agent异常退出的情况下,使用last()的监控项依然在产出数据! 分析解决 last()函数会跳过空值,取最后一个有效值计算。遍查文档,只有用avg(,60)替代的办法来解决。
zabbix 主动模式下报文分析
摘要:### 获取监控项列表 - 客户端发起请求 3次握手之后,请求监控项列表: `{"request":"active checks","host":"xx","host_metadata":"xx"}` - 服务端返回 监控项列表: ``` { "response":"success", "data"
FAQ:zabbix 频繁丢失数据问题分析处理
摘要:结论 最终确定的原因是被监控的主机上起了多个agentd程序,造成一批数据入库时有重复的数据导致入库失败,数据丢失。 问题描述 在 grafana上看到的绘图断断续续。 分析过程 1 性能瓶颈 一开始以为是哪里的性能遇到瓶颈,把服务器和zabbix的监控数据看了一遍,各个指标都没有问题。 2 上网百
grafana Variables 变量的使用
摘要:概念澄清 A variable is a placeholder for a value. # 变量是值的占位符。 # 参考文档:https://grafana.com/docs/grafana/latest/dashboards/variables/ 变量的valve,可以从主机组或在主机中提取,
zabbix 使用监控项原型(自动发现规则)
摘要:以kafka为例,需要先对 topic-parttion 做发现,脚本如下 cat topic_parttion_discovery.py #!/usr/bin/env python import json import os cmd=os.popen("""sh /usr/local/kafka/
向 systemd 添加 zabbix_agentd 服务
摘要:- 创建 .service 文件 ``` # /usr/lib/systemd/system/zabbix-agent.service [Unit] Description=Zabbix Agent After=syslog.target After=network.target [Service]
使用netdata 监控Linux 主机
摘要:在linux主机上,直接使用下面的命令创建容器即可 docker run -d --name=netdata \ -p 19999:19999 \ -v netdataconfig:/etc/netdata \ -v netdatalib:/var/lib/netdata \ -v netdatac
zabbix 概念 - 主机、主机配置模板
摘要:zabbix 是以“**主机**”为单位来组织监控项的。 主机(Host)是一个你想要监控的**网络实体**(物理的,或者虚拟的)。它可以是一台物理服务器,一个网络交换机,一个虚拟机或者一些应用。 **主机配置模板**是主机配置的抽象,避免同类主机重复配置。 - 模板下载:[git.zabbix.c
zabbix 中 net.if.out 值来源及persecond的计算
摘要:使用脚本记录每秒的net.if.out值,与zabbix中的lastdata值做对比,发现对不上。 #!/bin/bash dev=eth0 get_dev_net_speed() { dev_info=`cat /proc/net/dev | grep "${dev}"` send_bytes_1