合集-可观测性

摘要:日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽。by Martin Mao Gartner 把“可观测性”定义为“监控”的巨大革新,可观测性提供了数字化业务应用、创新速度、客 阅读全文
posted @ 2023-05-16 10:33 IT运维监控 阅读(280) 评论(0) 推荐(0) 编辑
摘要:SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案。夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初步了解,看看其产品设计如何,也帮大家未来选型做参考。 1. SigNoz介绍 SigNoz is a 阅读全文
posted @ 2023-07-20 16:49 IT运维监控 阅读(797) 评论(0) 推荐(0) 编辑
摘要:毫无疑问,在过去几年里,你可能已经多次听到过可观测性这个词。对于很多人来说,很难理解这个词的真正含义。对许多人来说,他们错误地将其等同于"监控"。虽然可观测性的根本定义以及它所包含的一切都不在本系列博文的讨论范围之内,但我强烈建议您购买一本由 Charity Majors ([twitter](ht 阅读全文
posted @ 2023-08-15 17:11 IT运维监控 阅读(314) 评论(0) 推荐(0) 编辑
摘要:上一个博文中,我提到如何使用 OpenTelemery 的特定语言 API 来收集遥测数据,包含手动和自动的埋点技术,这很重要!但是,收集遥测数据只是解决方案的第一步。 你需要把遥测数据路由转发到其他地方,同时添加额外的元数据信息。这时就轮到 SDK 发挥作用了。 链路追踪生产者( Tracer P 阅读全文
posted @ 2023-08-17 19:42 IT运维监控 阅读(278) 评论(0) 推荐(0) 编辑
摘要:这是讲解 OpenTelemetry 系列博客的第二篇。在上一篇博客中,我们介绍了 OpenTelemetry 是什么以及由什么组成。现在我们将讨论如何使用 OTel 准确收集遥测数据和链路追踪数据。 手动埋点 我们这里谈论“埋点”(代码插桩),是指通过技术手段采集链路追踪数据的行为。通常有两种方式 阅读全文
posted @ 2023-08-16 14:19 IT运维监控 阅读(249) 评论(0) 推荐(0) 编辑
摘要:在之前的博文中,我们讨论了如何使用 SDK 和链路追踪生产者来导出进程中的遥测数据。尽管有多种类型的导出器可供选择,但其中一个常见的目标是将数据导出到 OpenTelemetry Collector。本篇文章将深入探讨收集器以及如何使用它。 选 OTel Collector 还是其他 正如上一篇博客 阅读全文
posted @ 2023-08-21 17:12 IT运维监控 阅读(160) 评论(0) 推荐(0) 编辑
摘要:我们开发的应用程序可能具有不同的形态和架构:有些是单体应用,有些是微服务。为单体应用程序添加遥测数据相对来说简单,因为所有数据都在同一进程中。然而对于微服务应用程序,情况可能会更具挑战性。 通常,分布式微服务应用程序的不同服务之间仅通过网络连接。然而,当我们想要创建有效的链路追踪数据,就要考虑到下面 阅读全文
posted @ 2023-08-24 09:14 IT运维监控 阅读(123) 评论(0) 推荐(0) 编辑
摘要:过去的五篇文章讨论了如何使用 OpenTelemetry 来构建可观测性的技术细节。我认为在本博文系列的结尾介绍有关 OTel 生态系统的信息,为读者提供更全面的了解非常重要。OpenTelemetry 的发展非常迅速,对于刚接触它的人来说,可能会感到有些不知所措或困惑,不知道在哪里找到有效的信息或 阅读全文
posted @ 2023-08-24 09:39 IT运维监控 阅读(164) 评论(0) 推荐(0) 编辑
摘要:eBPF 的发展如火如荼,在可观测性领域大放异彩,Grafana 近期也发布了一款 eBPF 采集器,可以采集服务的 RED 指标,本文做一个尝鲜介绍,让读者有个大概了解。 eBPF 基础介绍可以参考我之前的文章《eBPF Hello world》。理论上,eBPF 可以拿到服务收到的请求信息,比如 阅读全文
posted @ 2023-09-27 17:08 IT运维监控 阅读(233) 评论(0) 推荐(0) 编辑
摘要:指标、日志、链路是服务可观测性的三大支柱,在服务稳定性保障中,通常指标侧重于发现故障和问题,日志和链路分析侧重于定位和分析问题,其中日志实际上是串联这三大维度的一个良好桥梁。 但日志分析往往面临成本和效果之间的权衡问题,没有完美的方案只有适合的方案,本文将结合实战经验,介绍一种日志分析的实现,分析如 阅读全文
posted @ 2023-11-25 09:51 IT运维监控 阅读(221) 评论(0) 推荐(0) 编辑
摘要:越来越多的互联网公司开始尝试 ClickHouse 存储日志,比如映客、快手、携程、唯品会、石墨文档,但是 ClickHouse 存储日志缺少对应的可视化方案,石墨文档开源了 ClickVisual 用于解决这个问题。笔者初步尝试了一下 ClickVisual,一点小小的实践经验,与各位分享。 简介 阅读全文
posted @ 2023-12-01 10:58 IT运维监控 阅读(862) 评论(0) 推荐(0) 编辑
摘要:笔者从 14 年开始做监控,从 Open-Falcon 到后来的 Nightingale,到现在接近 10 年,认知在持续迭代,最近又有一些新想法,跟大家分享一下我眼中的理想的监控系统到底是什么样的。 关于采集器 市面上有众多采集器,比如 telegraf、categraf、grafana-agen 阅读全文
posted @ 2023-12-18 14:08 IT运维监控 阅读(147) 评论(0) 推荐(0) 编辑
摘要:什么是可观测性? 可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问 阅读全文
posted @ 2024-01-16 15:51 IT运维监控 阅读(251) 评论(0) 推荐(0) 编辑
摘要:Charity Majors 的这句话可能是对科技行业当前可观察性状态的最好总结——完全的、大规模的混乱。大家都很困惑。什么是 trace?什么是 span?一行日志就是一个 span 吗?如果我有日志,我还需要 trace 吗?如果我有很好的 metric,为什么还需要 trace?诸如此类的问题 阅读全文
posted @ 2024-04-26 11:56 IT运维监控 阅读(117) 评论(0) 推荐(0) 编辑
摘要:夜莺资深用户群有人推荐的一个工具,看了一下真挺好的,也推荐给大家。 需求场景 A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。 工具简介 就类似 curl,httpstat 也可以请求某个后端,而且可以把各个阶段的耗时都展示出来,包 阅读全文
posted @ 2024-06-11 10:06 IT运维监控 阅读(264) 评论(0) 推荐(0) 编辑
摘要:Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题。下面我们就来看一下如何实现这个能力。 升级方法 从 v6 版本开始,程序自动创建表结构,所以 v6、v7 阅读全文
posted @ 2024-06-12 15:40 IT运维监控 阅读(181) 评论(0) 推荐(0) 编辑
摘要:AlertManager 是一个开源警报系统,与 Prometheus 监控系统配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我们之前的文章中,我们研究了以下内容: 在 Kubernetes 上部署 Prometheus 部署 Kube State Metric 阅读全文
posted @ 2024-08-06 14:40 IT运维监控 阅读(101) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示