SRETalk- - IT运维监控

SRE心里话：要求100%服务可用性就是老板的无知

摘要：不可能有 100% 的服务可用性，也没有必要做到 100% 的服务可用性。如何度量风险，如何制定 SLO，如何提升稳定性，如何权衡成本和产出阅读全文

posted @ 2023-05-25 12:55 IT运维监控阅读(214) 评论(0) 推荐(0) 编辑

2 分钟，搞懂 SLO 最佳实践

摘要：SRE 首要任务是制定并推动达成 SLO，本文介绍 SLO 的相关实践。成为 SRE 第一步：搞定 SLO，协助制定、推动达成！阅读全文

posted @ 2023-05-26 17:05 IT运维监控阅读(711) 评论(0) 推荐(0) 编辑

SRE Google 运维解密读书笔记一：SRE 方法论概述

摘要：SRE Google 运维解密，是 SRE 领域的启蒙之作，讲述了 Google 的 SRE 实践，SRE 就是从 Google 流传出来的。本文是读书笔记，第一篇，概述 SRE 方法论阅读全文

posted @ 2023-05-17 14:31 IT运维监控阅读(273) 评论(0) 推荐(0) 编辑

面向故障处理的可观测性体系建设

摘要：笔者从 12 年开始入行，从事 DevOps 研发工作，做过部署系统、监控系统、可观测性相关产品，也做过 SRE 一线和管理工作，对于可观测性的理解和实践，有一些小小的见解，利用本文和大家做一个探讨分享。本文主要内容包括：可观测性在整个商业体系中的位置和价值如何快速发现故障，使用哪类指标告警 S 阅读全文

posted @ 2023-06-19 10:05 IT运维监控阅读(245) 评论(0) 推荐(0) 编辑

VictoriaLogs 要凭什么革了各家日志存储的命

摘要：如果大家对时序指标的存储方案有些了解，那大概率会听过 VictoriaMetrics，VictoriaMetrics 号称 Prometheus 的升级版，在性能和成本方面也确实做得很好，如果是夜莺新用户，我都是推荐直接使用 VictoriaMetrics 来作为存储。前几天 Victoria 发布阅读全文

posted @ 2023-10-13 14:24 IT运维监控阅读(432) 评论(0) 推荐(0) 编辑

可观测性数据收集集大成者 Vector 介绍

摘要：如果企业提供 IT 在线服务，那么可观测性能力是必不可少的。“可观测性” 这个词近来也越发火爆，不懂 “可观测性” 都不好意思出门了。但是可观测性能力的构建却着实不易，每个企业都会用到一堆技术栈来组装建设。比如数据收集，可能来自某个 exporter，可能来自 telegraf，可能来自 OTEL，阅读全文

posted @ 2023-10-13 14:43 IT运维监控阅读(891) 评论(0) 推荐(0) 编辑

稳定性保障8个锦囊，建议收藏！

摘要：稳定性保障，是一切技术工作的出发点和落脚点，也是 IT 工作最核心的价值体现，当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊，分享给各位技术人员择机使用。 #1 设定可量化的、业务可理解的可用性目标没有度量就没有改进。Google SRE 曾在其工程实践中，就引入了针对服务可靠性的预算机阅读全文

posted @ 2023-11-22 10:20 IT运维监控阅读(201) 评论(0) 推荐(0) 编辑

Prometheus 14 点实践经验分享

摘要：这是 2017 年的 promcon 的分享，原文地址在这里，作者 Julius Volz，今天偶然看到，虽然已经过去 6 年，有些实践经验还是非常值得学习。做个意译，加入一些自己的理解，分享给大家。埋点方面 1. 所有模块都要埋点我印象中 Google 有个规范，所有的服务模块，都需要通过 H 阅读全文

posted @ 2023-12-29 18:21 IT运维监控阅读(92) 评论(0) 推荐(0) 编辑

招贤令：一起来搞一个新开源项目

摘要：我想搞一个新的开源项目，想邀请同道中人一起来搞。目标是做一个探针式监控采集器，使用 Go 语言编写，欢迎感兴趣的朋友一起来搞。名词解释探针式监控采集器，这里的探针式是啥意思？这是我的个人叫法，监控数据采集器姑且可以分成两种，一种是本地式，部署到要监控的目标机器上，采集 CPU、内存、磁盘、IO 阅读全文

posted @ 2024-01-04 12:01 IT运维监控阅读(60) 评论(0) 推荐(0) 编辑

大一统的监控探针采集器 cprobe

摘要：需求背景监控数据采集领域，比如 Prometheus 生态有非常多的 Exporter，虽然生态繁荣，但是无法达到开箱即用的大一统体验，Exporter 体系的核心问题有：良莠不齐：有的 Exporter 写的非常棒，有的则并不完善，有些监控类别甚至有多个 Exporter，选择困难写法各异：阅读全文

posted @ 2024-01-13 10:53 IT运维监控阅读(111) 评论(0) 推荐(0) 编辑

快速监控 Oracle 数据库

摘要：Oracle 数据库在行业内应用广泛，通常存放的非常重要的数据，监控是必不可少的，本文使用 Cprobe 采集 Oracle 监控数据，极致简单，分享给大家。安装配置 Oracle 简单起见，我使用 Docker 启动 Oracle，命令如下： docker run -d --name oracl 阅读全文

posted @ 2024-01-18 18:00 IT运维监控阅读(138) 评论(0) 推荐(0) 编辑

漫画图解 Go 并发编程之：Channel

摘要：当谈到并发时，许多编程语言都采用共享内存/状态模型。然而，Go 通过实现 Communicating Sequential Processes（CSP）而与众不同。在 CSP 中，程序由不共享状态的并行处理器组成；相反，他们使用 Channel 来沟通和同步他们的行动。因此，对于有兴趣采用 Go 的阅读全文

posted @ 2024-01-30 12:02 IT运维监控阅读(36) 评论(0) 推荐(0) 编辑

如何排查常规软件问题 - 面向 Linux 初级用户的教程

摘要：笔者从 14 年做开源软件以来，接触了众多 Linux 新手用户，这里我为这类用户总结了一些常见的问题排查方法，希望能帮助到大家。如果你已经工作多年，对于下面提到的思路和方法应该非常熟悉，如果对某一条感到陌生，咳咳，真的不太应该，赶紧补补吧。 1. 软件资料获取第一条是告诉大家去哪里获取软件文档资阅读全文

posted @ 2024-02-04 15:54 IT运维监控阅读(73) 评论(0) 推荐(0) 编辑

Vector + ClickHouse 收集日志

摘要：目前业界的日志生态，最常用的是 ELK，其次就是 ClickHouse，本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗，最终写入 ClickHouse。至于日志的可视化，后面再单独介绍，后面夜莺会把日志可视化能力下放到开源版本，之前跟映客的兄弟们交流准备阅读全文

posted @ 2024-03-15 14:44 IT运维监控阅读(1028) 评论(0) 推荐(0) 编辑

5 分钟小工具：使用 dive 分析 docker 镜像

摘要：需求拿到一个镜像之后，我想知道：分层查看镜像里都有哪些文件各层使用了什么命令构建的这个镜像镜像里比较大的文件有哪些（可能需要优化） dive 工具介绍 dive 工具可以做这些分析。dive 的 github 地址是 wagoodman/dive，小巧玲珑，MIT 开源协议，42.9k 的阅读全文

posted @ 2024-03-16 17:38 IT运维监控阅读(248) 评论(0) 推荐(0) 编辑

使用 nsenter 排查容器网络问题

摘要：需求我想进入容器中执行 curl 命令探测某个地址的连通性，但是容器镜像里默认没有 curl 命令。我这里是一个内网环境不太方便使用 yum 或者 apt 安装，怎么办？这个需求比较典型，这里教大家一个简单的方法，使用 nsenter 进入容器的 net namespace，即可使用宿主机的 c 阅读全文

posted @ 2024-03-19 11:21 IT运维监控阅读(79) 评论(0) 推荐(0) 编辑

别想宰我，怎么查看云厂商是否超卖？详解 cpu steal time

摘要：据说有些云厂商会超卖，宿主有 96 个核心，结果卖出去 100 多个 vCPU，如果这些虚机负载都不高，大家相安无事，如果这些虚机同时运行一些高负载的任务，相互之间就会抢占 CPU，对应用程序有较大影响，我应该如何查看我的 CPU 是否被抢占了呢？什么是 cpu steal time？如果你在物阅读全文

posted @ 2024-03-26 19:42 IT运维监控阅读(105) 评论(0) 推荐(0) 编辑

老张，你的服务是不是挂了？论全局 SLI 的重要性

摘要：场景再现你正在午休，正梦见中了彩票，突然收到电话告警，说服务对外接口 95 分位延迟突增，惊出一身冷汗，睡意全无，抓紧打开监控系统，查看服务的 SLI 指标，发现确实有问题，已经持续 1 分钟，这服务我刚接手没多久，怎么办？怎么办？？对了，告警详情里有 SOP 预案手册，赶紧打开看看。 SOP 预阅读全文

posted @ 2024-03-28 10:49 IT运维监控阅读(98) 评论(0) 推荐(0) 编辑

关于 ulimit 的两个天坑

摘要：稍微有点 Linux 经验的人一定会遇到过 “Too many open files” 错误，这个错误本质是 ulimit 设置不合理导致的。关于 ulimit 设置，有哪些需要注意的点呢？本文给大家做一个介绍，希望对大家有所帮助。如何确认 ulimit 设置生效了？很多人设置了 ulimit 阅读全文

posted @ 2024-04-03 15:20 IT运维监控阅读(192) 评论(0) 推荐(0) 编辑

SRE 必备利器：域名 DNS 探测排障工具

摘要：问题背景访问某个 HTTP 域名接口，偶发性超时，原因可能多种多样，比如 DNS 解析问题、网络质量问题、对端服务负载问题等，在客户端没有良好埋点的情况下，排查起来比较费劲，只能挨个方向尝试，这里送大家一个小工具，可以快速采样 DNS 解析延迟，快速确认是否是 DNS 解析问题。使用演示运行工阅读全文

posted @ 2024-04-12 16:48 IT运维监控阅读(146) 评论(0) 推荐(0) 编辑

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

合集-SRETalk

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论