摘要: 1.背景信息 目前我们在使用阿里云 SLS 服务,涉及多个环境(如 debug 和 prod)。我们分别收集了 higress 的 stdout 输出日志和业务日志,存储在不同的 logstore 中:debug-cn-xx-higress 和 debug-cn-xx-podlog。问题在于 hig 阅读全文
posted @ 2025-04-15 11:45 小家电维修 阅读(6) 评论(0) 推荐(0)
摘要: 1.背景 在给线上环境的Pod增加HPA时,HPA通过云效的YAML模板自动部署,因此每次更新时,Pod会自动获得HPA能力。 线上如以下配置: 最小副本设置为1,最大副本为10; 扩容阈值设置为CPU和内存的75%; request CPU为1C、内存为1G; 但在发布过程中,Pod 副本从 1 阅读全文
posted @ 2025-04-09 21:38 小家电维修 阅读(6) 评论(0) 推荐(0)
摘要: 1.背景 SkyWalking 是一个用于监控微服务和分布式系统的工具。随着 Kubernetes 的普及,部署和管理 SkyWalking 变得复杂。为了简化这一过程,Helm 提供了一种方便的方式来快速安装和配置 SkyWalking。本篇文档的目的是帮助用户通过 Helm 在 Kubernet 阅读全文
posted @ 2025-03-15 15:56 小家电维修 阅读(68) 评论(0) 推荐(0)
摘要: 1.背景信息 在我们部门规划中,计划使用一套 Kubernetes 集群部署两个环境(pre 和 prod)。目前,pre 环境的节点池名称为 pool01-10,prod 环境的节点池名称为 101-110。为了确保 pre 的 Pod 部署到 pre 的节点池,prod 的 Pod 部署到 pr 阅读全文
posted @ 2025-03-15 15:32 小家电维修 阅读(11) 评论(0) 推荐(0)
摘要: 1.简介 Micrometer 是一个用于收集和报告指标的 Java 库,广泛用于 Spring Boot 和其他 Java 应用。它提供了对系统各项资源的监控支持,包括但不限于 JVM、内存、垃圾回收、线程池、HTTP 请求 等。 Micrometer 支持与多种监控系统的集成,例如 Promet 阅读全文
posted @ 2025-03-14 18:11 小家电维修 阅读(46) 评论(0) 推荐(0)
摘要: 1.背景 “由于阿里云 ACK 中,存活、就绪和启动探针的告警被包含在通用 warn 告警中,且该告警的触发频率为一次性触发,这导致我司项目中三大探针的告警频率过于频繁。因此,需要将这三大探针的告警从‘通用 warn 告警’中剥离。” 2.配置 1.找到ack集群告警配置项:报警配置→运维管理→告警 阅读全文
posted @ 2025-03-14 17:49 小家电维修 阅读(8) 评论(0) 推荐(0)
摘要: 1.引言 SkyWalking Agent 提供了内置的日志功能,用于记录运行过程中的信息、调试信息和错误信息。由于日志采集是通过直接读取本地日志文件的方式,因此需要将日志配置为写入本地文件。由于这里使用的是k8s 2.配置K8S 2.1 配置文件位置 在 SkyWalking Agent 中,日志 阅读全文
posted @ 2025-03-14 17:45 小家电维修 阅读(35) 评论(0) 推荐(0)
摘要: 1.hpa的值为什么是依据request来的?是否不太合理 Horizontal Pod Autoscaler(HPA)是 Kubernetes 中用来根据负载动态扩展或收缩 Pod 数量的控制器。它的扩展决策通常基于一些指标,比如 CPU 使用率、内存使用率,或者自定义的指标。你提到的 HPA 的 阅读全文
posted @ 2025-03-14 17:36 小家电维修 阅读(9) 评论(0) 推荐(0)
摘要: 1.目的 由于 Loki-Stack 是通过 Helm 安装的,而 Grafana 只是其中的一个组件,并且由于特定的 release 版本限制,配置 Grafana 使用 MySQL 存储的方式相对复杂。因此,这里记录了如何通过 Helm 部署 Loki-Stack 并配置 Grafana 使用 阅读全文
posted @ 2025-03-14 17:31 小家电维修 阅读(23) 评论(0) 推荐(0)
摘要: 1.故障背景 由于需要部署新环境,于是在阿里云新建一个ack集群,部署了业务,结果整晚上的存活探针告警,新集群接近30个业务pod,整晚上将近50多条存活探针告警,这个结果明显不正常。 但是查看所有pod状态事件全部正常,阿里云托管的ack也没有事件异常,第一反应确实是集群某些参数不对导致这个问题, 阅读全文
posted @ 2024-11-02 17:34 小家电维修 阅读(233) 评论(0) 推荐(0)
摘要: 因为在每次发版的时候,老的pod在要被删除的时候都会报一个存活探针失败的问题,所以这里按照思路,整理如下问题,说明为什么每次发版都会报存活探针失败的问题以及解决方案的思路。 1.启动探针,存活探针,就绪探针的检查顺序 在 Kubernetes 中,启动探针(startup probe)、存活探针(l 阅读全文
posted @ 2024-11-02 17:16 小家电维修 阅读(118) 评论(0) 推荐(0)
摘要: 本文记录一个很简单的问题,记录该文章的原因是在调试过程中,老眼昏花,因为copy和run的原因,多排错一小时,特此记录。 首先看看以下。 COPY: 功能: COPY 是用来将构建上下文(本地机器的文件系统)中的文件或目录复制到 Docker 镜像中的指定位置。它只是一个复制操作,不执行任何命令。 阅读全文
posted @ 2024-11-02 17:12 小家电维修 阅读(69) 评论(0) 推荐(0)
摘要: 灰度发布(又称为金丝雀发布)是一种平滑过渡的发布方式,将老版本应用与新版本应用同时部署在环境中,让一部分用户继续使用老版本应用,一部分用户开始使用新版本应用,然后根据用户使用情况调整新版本流量占比,逐步把所有用户都迁移到新版本应用。 1.应用场景 互联网产品需要快速迭代开发上线,同时又要保证质量。为 阅读全文
posted @ 2024-11-02 17:05 小家电维修 阅读(50) 评论(0) 推荐(0)
摘要: 本章将介绍如何启动IoTDB单机实例,IoTDB单机实例包括 1 个ConfigNode 和1个DataNode(即通常所说的1C1D)。 1.先决条件 1.1 获取安装包 以下是iotdb的安装包官方地址 https://www.apache.org/dyn/closer.cgi/iotdb/1. 阅读全文
posted @ 2024-09-23 11:40 小家电维修 阅读(221) 评论(0) 推荐(0)
摘要: 为了更全面地提升 Kubernetes 集群的效率、安全性、可维护性,以下是更为详尽的 Kubernetes 使用规范,涵盖架构设计、监控、扩展、安全性等多个维度的最佳实践。 1.架构设计规范 1.1 多环境隔离 开发、测试、生产环境分离:为不同环境使用不同的命名空间或集群,确保开发环境的错误不影响 阅读全文
posted @ 2024-09-19 17:35 小家电维修 阅读(66) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示