IT运维监控 - 博客园

2024年11月7日

摘要：开源的监控产品有很多，其中最知名的，当属早期的 Zabbix 和现在的 Prometheus。Zabbix 是 2001 年发布的，至今已经 20 多年，很多细节打磨的相当到位，Prometheus 是 2014 年发布的，相对年轻，依托于之前 Google Borgmon 的先进经验和灵感，Pro 阅读全文

posted @ 2024-11-07 15:25 IT运维监控阅读(486) 评论(0) 推荐(0) 编辑

2024年11月5日

手把手教程：使用 Fluentbit 采集夜莺日志写入 ElasticSearch

摘要： Fluentbit 是非常流行的日志采集器，作为 Fluentd 的子项目，是 CNCF 主推的项目，本文以夜莺的日志举例，使用 Fluentbit 采集，并直接写入 ElasticSearch，最终使用 Kibana 查看。借此实践过程，让读者熟悉 Fluentbit 的使用。测试环境介绍 Ma 阅读全文

posted @ 2024-11-05 10:59 IT运维监控阅读(160) 评论(0) 推荐(0) 编辑

2024年10月29日

VictoriaMetrics 中文教程（10）集群版介绍

摘要： VictoriaMetrics 中文教程系列文章： VictoriaMetrics 中文教程（01）简介 VictoriaMetrics 中文教程（02）安装 VictoriaMetrics 中文教程（03）如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics Vict 阅读全文

posted @ 2024-10-29 07:39 IT运维监控阅读(337) 评论(0) 推荐(1) 编辑

2024年10月8日

夜莺监控的机器支持挂载到多个业务组了

摘要：夜莺开源项目于国庆前夕发布了 v7.4.1 版本，修复了一些 bug，同时也带来了一些新功能。其中最重要的一个功能是：机器支持挂载到多个业务组了。本文将介绍几个重要的变更。所有变更点 feat: 左侧栏业务组新设计 feat: 机器支持了绑定到多个业务组，机器混部的场景，管理机器更加方便了 fea 阅读全文

posted @ 2024-10-08 14:37 IT运维监控阅读(43) 评论(0) 推荐(0) 编辑

2024年9月14日

Datadog 监控最佳实践 | 收集正确的数据

摘要：本文是Datadog“高效监控”系列的第一篇，后面还会有第二篇《针对重要事项发出警报》和《调查性能问题》。监控数据有多种形式 - 一些系统不断地输出数据，而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说，监控数据是观察系统内部运行情况的必阅读全文

posted @ 2024-09-14 09:51 IT运维监控阅读(180) 评论(0) 推荐(0) 编辑

2024年9月6日

服务稳定性保障的五大误解

摘要：在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日，这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念，期望有一天大家沟通时不是鸡同鸭讲，各说各话。误解一：服务可用性听过很多技术分享，看过很多平台的承诺，上来都是讲我们的服务稳定性99.9xx%，但阅读全文

posted @ 2024-09-06 15:07 IT运维监控阅读(53) 评论(0) 推荐(0) 编辑

2024年9月4日

企业分享 - 益丰大药房监控升级之路

摘要：益丰大药房是全国大型药品零售连锁企业（中国沪市主板上市连锁药房），专注医药零售行业23载，市值稳居国内上市连锁药店前列/中国上市公司500强。益丰有体量庞大的研发运维团队，有体量庞大的 IT 设施和服务，为了能够更好的监控这些设施和服务，益丰在多年前就开始建设监控系统，本文分享益丰的监控升级之路阅读全文

posted @ 2024-09-04 16:56 IT运维监控阅读(54) 评论(0) 推荐(0) 编辑

2024年9月3日

无需推翻既有的建设，这个可观测性产品思路清奇

摘要：市面上已经有很多开源、商业的可观测性类产品，比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等，而且各类云厂商也会提供自己的可观测性套件，有些规划混乱的云厂商甚至会提供功能重叠的多套产品，这加剧了企业数据孤岛的现状。来看两组数据：据不阅读全文

posted @ 2024-09-03 11:07 IT运维监控阅读(79) 评论(0) 推荐(0) 编辑

2024年8月30日

海大集团的可观测平台建设实践

摘要：海大集团介绍海大集团是以科技为主导的中国农业龙头企业，1998年成立于广东广州，目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链，在全球拥有分子公司逾600家、员工达4万人，位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌阅读全文

posted @ 2024-08-30 11:45 IT运维监控阅读(102) 评论(0) 推荐(0) 编辑

2024年8月29日

Prometheus 告警恢复时，怎么获取恢复时的值？

摘要： Prometheus 告警事件中的 $value 表示当前告警触发时的值，但是在告警恢复时，Resolved 事件中的 $value 仍然是最新告警时的值，并非是恢复时的值，这是什么原因和原理？是否有办法来解决呢？不废话，先说原理。原理告警规则是配置在 prometheus.yaml 中的，由阅读全文

posted @ 2024-08-29 17:11 IT运维监控阅读(354) 评论(0) 推荐(0) 编辑

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论