IT运维监控 - 博客园

2024年1月24日

摘要：熟悉夜莺的小伙伴都知道夜莺分为开源版、专业版、企业版，三个版本良性发展。近期夜莺团队发布了 v6.7 版本，把机器Metadata管理功能推送到了开源版，下面是该功能的简单介绍。如上图，机器列表页面的机器标识部分，加了超链接支持点击，点击之后会弹出一个侧拉板，展示机器的 metadata 信息，如阅读全文

posted @ 2024-01-24 19:14 IT运维监控阅读(290) 评论(0) 推荐(0)

2024年1月23日

灭火图 - 故障发现和定位的入口

摘要：通过深入分析和解决企业在可观测性和稳定性保障方面的挑战，Flashcat 提出了“灭火图”这一关键概念。灭火图以服务/模块/基础组件/基础设施等为维度，以聚合的视角实时度量某个特定维度的可用性（典型指标包括时延、流量、错误、饱和度），并为该可用性指标自动设定合理的阈值，可以回溯历史上的指定时间点的阅读全文

posted @ 2024-01-23 13:13 IT运维监控阅读(616) 评论(0) 推荐(0)

2024年1月19日

像 Google SRE 一样 OnCall

摘要：在 Google SRE 的著作《Google运维解密》(原作名：Site Reliability Engineering: How Google Runs Production Systems)中，Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 On 阅读全文

posted @ 2024-01-19 17:01 IT运维监控阅读(272) 评论(0) 推荐(0)

2024年1月18日

快速监控 Oracle 数据库

摘要： Oracle 数据库在行业内应用广泛，通常存放的非常重要的数据，监控是必不可少的，本文使用 Cprobe 采集 Oracle 监控数据，极致简单，分享给大家。安装配置 Oracle 简单起见，我使用 Docker 启动 Oracle，命令如下： docker run -d --name oracl 阅读全文

posted @ 2024-01-18 18:00 IT运维监控阅读(256) 评论(0) 推荐(0)

2024年1月17日

FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

摘要： FlashDuty：一站式告警响应平台，前往此地址免费体验！值班管理 UI 交互优化【个人日程】从头像下拉菜单调整到值班列表页面，快速查看个人值班日程【值班列表】支持原地预览最近一周值班情况，包括当前和下一阶段值班人【值班详情】支持日历模式与时间线模式切换，查看月度计划更方便【规则调整】支阅读全文

posted @ 2024-01-17 10:40 IT运维监控阅读(203) 评论(0) 推荐(0)

2024年1月16日

可观测性与传统监控的区别和联系

摘要：什么是可观测性？可观测性（Observability）是一种软件开发和系统构建的哲学，是对系统内部状态及行为的度量和推断能力，通常包括日志、指标、链路追踪等多个度量维度。也就是说，在软件开发和运维领域中，可观测性是指对于一个复杂的系统，能够通过监控、日志、指标、追踪等手段，快速地发现、诊断、解决问阅读全文

posted @ 2024-01-16 15:51 IT运维监控阅读(542) 评论(0) 推荐(0)

2024年1月13日

大一统的监控探针采集器 cprobe

摘要：需求背景监控数据采集领域，比如 Prometheus 生态有非常多的 Exporter，虽然生态繁荣，但是无法达到开箱即用的大一统体验，Exporter 体系的核心问题有：良莠不齐：有的 Exporter 写的非常棒，有的则并不完善，有些监控类别甚至有多个 Exporter，选择困难写法各异：阅读全文

posted @ 2024-01-13 10:53 IT运维监控阅读(207) 评论(0) 推荐(0)

2024年1月12日

TiDB 多集群告警监控-中章-融合多集群 Grafana

摘要： author：longzhuquan 背景随着公司XC改造步伐的前进，越来越多的业务选择 TiDB，由于各个业务之间需要物理隔离，避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana，但对于运维来说几十套集群的监控、告警、巡检均需消阅读全文

posted @ 2024-01-12 10:29 IT运维监控阅读(175) 评论(0) 推荐(0)

2024年1月11日

TiDB 多集群告警监控-初章-监控融合、自动告警处理

摘要： author:longzhuquan 背景随着公司XC改造步伐的前进，越来越多的业务选择 TiDB，由于各个业务之间需要物理隔离，避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana，但对于运维来说几十套集群的监控、告警、巡检均需消阅读全文

posted @ 2024-01-11 10:36 IT运维监控阅读(176) 评论(0) 推荐(0)

2024年1月10日

Flashduty 案例分享 - 途游游戏

摘要： Flashduty 作为功能完备的事件OnCall中心，可以接入云上、云下不同监控系统，统一做告警降噪分派、认领升级、排班协同，已经得到众多先进企业的认可。我们采访了一些典型客户代表，了解他们的痛点、选型考虑和未来展望，集成本系列文章，以飨读者。本次有幸在邹老板支持下访谈到途游资深运维工程师高工，阅读全文

posted @ 2024-01-10 10:14 IT运维监控阅读(324) 评论(0) 推荐(0)

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

公告