2024 年 5月随笔档案 - IT运维监控

透过 node-exporter 彻底弄懂机器监控：01. node-exporter 框架讲解

摘要：前言 Prometheus 生态里有很多采集器负责各类监控数据的采集，其中使用最广泛的，显然是 node-exporter，负责 Linux、BSD 等系统的常规监控指标的采集，比如 CPU、内存、硬盘、网络、IO 等。其 github 地址是：https://github.com/promethe 阅读全文

posted @ 2024-05-31 11:03 IT运维监控阅读(615) 评论(0) 推荐(0) 编辑

Prometheus 聚合查询的两个方案

摘要：问题背景多个 Prometheus 集群或者多个 VictoriaMetrics 集群，在 Grafana 和夜莺里通常需要创建多个不同的数据源，这也就意味着，数据没法聚合查询，比如统一做一下 sum 之类的运算会比较麻烦，本文讲述两种 Prometheus 生态的聚合查询方案，以供参考。场景模阅读全文

posted @ 2024-05-24 10:45 IT运维监控阅读(303) 评论(0) 推荐(0) 编辑

夜莺监控 v7.beta4 发版，仪表盘变量和业务组下的机器联动

摘要：这个版本最大的改动，就是仪表盘变量和业务组下的机器联动。大家可以导入这个大盘做测试： https://github.com/ccfos/nightingale/blob/main/integrations/Linux/dashboards/host_generic_categraf.json 这是查阅读全文

posted @ 2024-05-23 14:19 IT运维监控阅读(162) 评论(0) 推荐(0) 编辑

Prometheus 监控平台组件深度讲解

摘要：Prometheus 的重要性和流行度已经无需多言。直入主题，本文对 Prometheus 监控平台的各个组件做深度讲解，希望能帮助读者更好地理解 Prometheus。监控系统的核心逻辑对于一套监控系统而言，核心就是采集数据并存储，然后做告警判定、数据展示分析，这个专栏文章详细讲解了这个数阅读全文

posted @ 2024-05-11 10:49 IT运维监控阅读(279) 评论(0) 推荐(0) 编辑

已经有 Prometheus 了，还需要夜莺？

摘要：谈起当下监控，Prometheus 无疑是最火的项目，如果只是监控机器、网络设备，Zabbix 尚可一战，如果既要监控设备又要监控应用程序、Kubernetes 等基础设施，Prometheus 就是最佳选择。甚至有些开源项目，已经内置支持了 Prometheus 协议的指标暴露，比如新版本的 Zo 阅读全文

posted @ 2024-05-09 18:05 IT运维监控阅读(670) 评论(0) 推荐(0) 编辑

细说夜莺监控系统告警自愈机制

摘要：虽说监控系统最侧重的功能是指标采集、存储、分析、告警，为了能够快速恢复故障，告警自愈机制也是需要重点投入建设的，所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动。夜莺开源项目从 v7 版本开始内置了告警自愈模块，本文将详细介绍告警自愈的原理和实现。夜莺项目介绍夜莺监控是一款开源云原生阅读全文

posted @ 2024-05-08 16:59 IT运维监控阅读(366) 评论(0) 推荐(0) 编辑

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

05 2024 档案

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论