IT运维监控 - 博客园

2024年8月6日

摘要： AlertManager 是一个开源警报系统，与 Prometheus 监控系统配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我们之前的文章中，我们研究了以下内容：在 Kubernetes 上部署 Prometheus 部署 Kube State Metric 阅读全文

posted @ 2024-08-06 14:40 IT运维监控阅读(101) 评论(0) 推荐(0) 编辑

2024年8月1日

Grafana Loki 架构详解，比 ES 成本低很多

摘要：在本指南中，我们将详细了解Grafana Loki架构及其组件。在公司的分布式环境中，存储和管理来自各种系统资源的日志是一项具有挑战性的任务。为了简化这项任务，引入了一个称为日志聚合的概念，它从各种系统资源中收集、存储、管理日志。有各种各样的日志聚合工具，其中一个工具是 Grafana Loki，阅读全文

posted @ 2024-08-01 14:58 IT运维监控阅读(797) 评论(0) 推荐(0) 编辑

2024年7月31日

如何在 Kubernetes 里部署 JMX Exporter

摘要：本文会通过一个 Java 应用，演示 Prometheus JMX Exporter 在 Kubernetes 里的部署和配置方式。为了更好地理解 JMX Exporter，我们将使用 Spring Boot Java 应用程序并将所有 JMX 指标导出给 Prometheus。在本指南结束时，您将阅读全文

posted @ 2024-07-31 14:35 IT运维监控阅读(120) 评论(0) 推荐(0) 编辑

2024年7月22日

使用夜莺+categraf监控redis和redis集群

摘要：上一篇文章《使用 Categraf 快速建设 MySQL 监控，同时介绍夜莺模板中心》我们已经了解了如何使用夜莺配合 Categraf 监控 MySQL，本节我们重点看看 Redis 监控的实操方案。 Redis 监控资料首先还是去模板中心找到 Redis 插件相关的说明和各类模板，菜单位置在：集阅读全文

posted @ 2024-07-22 17:18 IT运维监控阅读(205) 评论(0) 推荐(0) 编辑

2024年7月11日

使用夜莺和 Categraf 快速建设 MySQL 监控

摘要：之前翻译过一篇文章，介绍 MySQL 监控的一些原理，本文侧重实操，使用夜莺 v7.beta12.1 版本为大家做一个演示，采集器使用 Categraf，先看一下最终仪表盘效果：下面开工。 1. 安装夜莺和 Categraf 夜莺的安装可以参考夜莺官方文档，Categraf 的安装可以参考 Ca 阅读全文

posted @ 2024-07-11 11:26 IT运维监控阅读(387) 评论(0) 推荐(0) 编辑

2024年6月13日

Conntrack 监控，别等故障了再回来加监控

摘要：这是专栏第 8 篇，介绍一下 node-exporter 的 conntrack 插件。这个插件大家平时关注可能较少，但是在一些场景下，比如防火墙、NAT 网关等，需要监控 conntrack 表的使用情况。我就遇到过一次生产事故，就是因为 conntract 表满了，导致新连接无法建立，所以这个插阅读全文

posted @ 2024-06-13 18:17 IT运维监控阅读(139) 评论(0) 推荐(1) 编辑

2024年6月12日

教你一招，告警恢复时如何拿到恢复时的值？

摘要： Prometheus 生态的原生做法，由于阈值是放在 promql 中的，恢复时的消息中难以拿到恢复时的值，夜莺 v7.0.0.beta10 版本开始，提供了一种较为简单的内置方式，解决这个问题。下面我们就来看一下如何实现这个能力。升级方法从 v6 版本开始，程序自动创建表结构，所以 v6、v7 阅读全文

posted @ 2024-06-12 15:40 IT运维监控阅读(181) 评论(0) 推荐(0) 编辑

2024年6月11日

SRE 排障利器，接口请求超时试试 httpstat

摘要：夜莺资深用户群有人推荐的一个工具，看了一下真挺好的，也推荐给大家。需求场景 A 服务调用 B 服务的 HTTP 接口，发现 B 服务返回超时，不确定是网络的问题还是 B 服务的问题，需要排查。工具简介就类似 curl，httpstat 也可以请求某个后端，而且可以把各个阶段的耗时都展示出来，包阅读全文

posted @ 2024-06-11 10:06 IT运维监控阅读(264) 评论(0) 推荐(0) 编辑

2024年5月31日

透过 node-exporter 彻底弄懂机器监控：01. node-exporter 框架讲解

摘要：前言 Prometheus 生态里有很多采集器负责各类监控数据的采集，其中使用最广泛的，显然是 node-exporter，负责 Linux、BSD 等系统的常规监控指标的采集，比如 CPU、内存、硬盘、网络、IO 等。其 github 地址是：https://github.com/promethe 阅读全文

posted @ 2024-05-31 11:03 IT运维监控阅读(599) 评论(0) 推荐(0) 编辑

2024年5月24日

Prometheus 聚合查询的两个方案

摘要：问题背景多个 Prometheus 集群或者多个 VictoriaMetrics 集群，在 Grafana 和夜莺里通常需要创建多个不同的数据源，这也就意味着，数据没法聚合查询，比如统一做一下 sum 之类的运算会比较麻烦，本文讲述两种 Prometheus 生态的聚合查询方案，以供参考。场景模阅读全文

posted @ 2024-05-24 10:45 IT运维监控阅读(299) 评论(0) 推荐(0) 编辑

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论