随笔分类 - 监控杂谈
摘要:大家有没有发现,随着公司发展,慢慢引入了越来越多的监控、可观测性的系统,云上的、云下的,开源的、商业的,通用的、特定产品的,导致告警事件分散在非常多的地方,形成一个一个的数据孤岛。比如下面这些监控系统,你们应该不止用了一个吧: 上图中有些系统你可能会困惑,比如 OceanBase,明明是个数据库,为
阅读全文
摘要:以防读者不了解夜莺,开头先做个介绍: 夜莺监控,英文名字 Nightingale,是一款侧重告警的监控类开源项目。类似 Grafana 的数据源集成方式,夜莺也是对接多种既有的数据源,不过 Grafana 侧重在可视化,夜莺是侧重在告警引擎。比如把 Prometheus、VictoriaMetric
阅读全文
摘要:告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。 需求场景举例
阅读全文
摘要:如果您从事软件开发、 SRE或DevOps工作,您可能听说过可观察性、遥测和跟踪等术语。这些概念对于理解应用程序在生产环境中的行为至关重要,并且它们是现代软件开发实践的重要组成部分。 您可能还听说过在可观测性方面提到过 OpenTelemetry。在本文中,我们将介绍 OpenTelemetry 1
阅读全文
摘要:这是 MongoDB 监控系列文章的第七篇,前面几篇文章的链接如下: MongoDB 监控(一) MongoDB 监控(二) MongoDB 监控(三) MongoDB 监控(四) MongoDB 监控(五) MongoDB 监控(六) 按照前面系列文章,我们已经采集到 MongoDB 的监控数据了
阅读全文
摘要:开源的监控产品有很多,其中最知名的,当属早期的 Zabbix 和现在的 Prometheus。Zabbix 是 2001 年发布的,至今已经 20 多年,很多细节打磨的相当到位,Prometheus 是 2014 年发布的,相对年轻,依托于之前 Google Borgmon 的先进经验和灵感,Pro
阅读全文
摘要:Fluentbit 是非常流行的日志采集器,作为 Fluentd 的子项目,是 CNCF 主推的项目,本文以夜莺的日志举例,使用 Fluentbit 采集,并直接写入 ElasticSearch,最终使用 Kibana 查看。借此实践过程,让读者熟悉 Fluentbit 的使用。 测试环境介绍 Ma
阅读全文
摘要:VictoriaMetrics 中文教程系列文章: VictoriaMetrics 中文教程(01)简介 VictoriaMetrics 中文教程(02)安装 VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics Vict
阅读全文
摘要:本文是Datadog“高效监控”系列的第一篇,后面还会有第二篇《针对重要事项发出警报》和《调查性能问题》。 监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必
阅读全文
摘要:益丰大药房是全国大型药品零售连锁企业(中国沪市主板上市连锁药房),专注医药零售行业23载, 市值稳居国内上市连锁药店前列/中国上市公司500强。 益丰有体量庞大的研发运维团队,有体量庞大的 IT 设施和服务,为了能够更好的监控这些设施和服务,益丰在多年前就开始建设监控系统,本文分享益丰的监控升级之路
阅读全文
摘要:市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。来看两组数据: 据不
阅读全文
摘要:海大集团介绍 海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌
阅读全文
摘要:Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢? 不废话,先说原理。 原理 告警规则是配置在 prometheus.yaml 中的,由
阅读全文
摘要:各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。 告警集成:目标是在一个Oncall平台上处理所有告警,
阅读全文
摘要:原文:https://last9.io/blog/convert-opentelemetry-traces-to-metrics-using-spanconnector/ 如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距
阅读全文
摘要:什么是可观测性? 可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问
阅读全文
摘要:大浪淘沙,2024 年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。 Prometheus 毫无疑问,Prometheus 是最值得关注的监控系统,因为 Prometheus 的规范和生态都
阅读全文
摘要:AlertManager 是一个开源警报系统,与 Prometheus 监控系统配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我们之前的文章中,我们研究了以下内容: 在 Kubernetes 上部署 Prometheus 部署 Kube State Metric
阅读全文
摘要:在本指南中,我们将详细了解Grafana Loki架构及其组件。 在公司的分布式环境中,存储和管理来自各种系统资源的日志是一项具有挑战性的任务。为了简化这项任务,引入了一个称为日志聚合的概念,它从各种系统资源中收集、存储、管理日志。有各种各样的日志聚合工具,其中一个工具是 Grafana Loki,
阅读全文
摘要:本文会通过一个 Java 应用,演示 Prometheus JMX Exporter 在 Kubernetes 里的部署和配置方式。为了更好地理解 JMX Exporter,我们将使用 Spring Boot Java 应用程序并将所有 JMX 指标导出给 Prometheus。在本指南结束时,您将
阅读全文