摘要:
AlertManager 是一个开源警报系统,与 Prometheus 监控系统配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我们之前的文章中,我们研究了以下内容: 在 Kubernetes 上部署 Prometheus 部署 Kube State Metric 阅读全文
摘要:
在本指南中,我们将详细了解Grafana Loki架构及其组件。 在公司的分布式环境中,存储和管理来自各种系统资源的日志是一项具有挑战性的任务。为了简化这项任务,引入了一个称为日志聚合的概念,它从各种系统资源中收集、存储、管理日志。有各种各样的日志聚合工具,其中一个工具是 Grafana Loki, 阅读全文
摘要:
本文会通过一个 Java 应用,演示 Prometheus JMX Exporter 在 Kubernetes 里的部署和配置方式。为了更好地理解 JMX Exporter,我们将使用 Spring Boot Java 应用程序并将所有 JMX 指标导出给 Prometheus。在本指南结束时,您将 阅读全文
摘要:
上一篇文章《使用 Categraf 快速建设 MySQL 监控,同时介绍夜莺模板中心》我们已经了解了如何使用夜莺配合 Categraf 监控 MySQL,本节我们重点看看 Redis 监控的实操方案。 Redis 监控资料 首先还是去模板中心找到 Redis 插件相关的说明和各类模板,菜单位置在:集 阅读全文
摘要:
之前翻译过一篇文章,介绍 MySQL 监控的一些原理,本文侧重实操,使用夜莺 v7.beta12.1 版本为大家做一个演示,采集器使用 Categraf,先看一下最终仪表盘效果: 下面开工。 1. 安装夜莺和 Categraf 夜莺的安装可以参考 夜莺官方文档,Categraf 的安装可以参考 Ca 阅读全文
摘要:
这是专栏第 8 篇,介绍一下 node-exporter 的 conntrack 插件。这个插件大家平时关注可能较少,但是在一些场景下,比如防火墙、NAT 网关等,需要监控 conntrack 表的使用情况。我就遇到过一次生产事故,就是因为 conntract 表满了,导致新连接无法建立,所以这个插 阅读全文
摘要:
Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题。下面我们就来看一下如何实现这个能力。 升级方法 从 v6 版本开始,程序自动创建表结构,所以 v6、v7 阅读全文
摘要:
夜莺资深用户群有人推荐的一个工具,看了一下真挺好的,也推荐给大家。 需求场景 A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。 工具简介 就类似 curl,httpstat 也可以请求某个后端,而且可以把各个阶段的耗时都展示出来,包 阅读全文
摘要:
前言 Prometheus 生态里有很多采集器负责各类监控数据的采集,其中使用最广泛的,显然是 node-exporter,负责 Linux、BSD 等系统的常规监控指标的采集,比如 CPU、内存、硬盘、网络、IO 等。其 github 地址是:https://github.com/promethe 阅读全文
摘要:
问题背景 多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。 场景模 阅读全文