SRE运维进阶之路

2026年1月22日

摘要： ### 🚀 缘起：为什么有了 Dashboard 还要造轮子？作为一名常年和 Kubernetes 打交道的运维/开发，你是否也经历过这些痛苦： - **多集群切换**：在多个 `kubeconfig` 之间跳来跳去，手忙脚乱。- **命令行依赖**：查个 Pod 日志、进个终端，非得敲一长串命阅读全文

posted @ 2026-01-22 16:41 SRE运维进阶之路阅读(61) 评论(0) 推荐(0)

2024年1月21日

云原生实践总结

摘要：云原生实践总结 👉 作为一名SRE，在运维云原生过程中的实践总结、沉淀，以便自己回顾和他人查阅，希望能帮助你在云原生领域的平稳落地。 📖 全文字数：1.6k+ ⏳ 阅读时长：4min 企业落地云原生的目的一句话概括：在保证稳定性的前提下，降本增效目标拆解：保障稳定性建设高可用性：基础组件阅读全文

posted @ 2024-01-21 18:23 SRE运维进阶之路阅读(177) 评论(0) 推荐(0)

2023年11月20日

容器化后无损上下线解决方案

摘要：容器化后无损上下线解决方案说明：本文主要以 Spring Cloud 应用举例 1. 背景绝大数事故发生在应用上下线发布阶段，所以要尽可能避免发布过程中由于应用自身代码问题对用户造成的影响。业界发布规范：可灰度（可以通过 Argo Rollout/OpenKruise 支持）可观测（容器阅读全文

posted @ 2023-11-20 20:55 SRE运维进阶之路阅读(87) 评论(0) 推荐(0)

2023年11月17日

弹性伸缩落地实践

摘要：弹性伸缩落地实践 1. 什么是 HPA ? HPA（Horizontal Pod Autoscaler）是 Kubernetes 中的一种资源自动伸缩机制，用于根据某些指标动态调整 Pod 的副本数量。 2. 什么时候需要 HPA ？负载波动：当您的应用程序的负载经常发生波动时，HPA 可以自动调阅读全文

posted @ 2023-11-17 09:37 SRE运维进阶之路阅读(152) 评论(0) 推荐(0)

2023年6月23日

Etcd 故障排查

摘要： Etcd 故障排查 Etcd 磁盘空间爆满解决方案 etcd默认的空间配额限制为2G，超出空间配额限制就会影响服务，所以需要定期清理设置环境变量 ETCD_CA_CERT="/etc/kubernetes/pki/etcd/ca.crt"ETCD_CERT="/etc/kubernetes/pki 阅读全文

posted @ 2023-06-23 14:09 SRE运维进阶之路阅读(228) 评论(0) 推荐(0)

2023年6月21日

Etcd 监控

摘要： Etcd 监控重点监控指标指标分类健康状态 USE 方法（系统）使用率饱和度错误 RED 方法（应用）请求速率错误率延迟指标分类指标释义健康状态实例健康状态 etcd是一个分布式系统，由多个成员节点组成。监控etcd成员节点的状态可以帮助你了解集群中节点的健康状况，发现掉线或阅读全文

posted @ 2023-06-21 20:47 SRE运维进阶之路阅读(360) 评论(0) 推荐(0)

2023年6月20日

评估 Etcd 性能及可靠性

摘要：评估 Etcd 性能及可靠性 SLI & SLO SLI（Service Level Indicator）：服务等级指标，其实就是我们选择哪些指标来衡量我们的稳定性。 SLO（Service Level Objective）：服务等级目标，指的就是我们设定的稳定性目标，比如“几个 9”这样的目标。阅读全文

posted @ 2023-06-20 20:46 SRE运维进阶之路阅读(250) 评论(0) 推荐(0)

2023年6月19日

Etcd 高可用故障演练

摘要： Etcd 高可用故障演练目的本次演练旨在测试 Kubernetes 的 etcd 高可用性，检验是否能够在其中一个 etcd 节点发生故障的情况下，其他 etcd 节点能够接管其工作，确保集群仍能正常运行。集群架构演练场景在一个三节点的 Kubernetes 集群中，我们将模拟其中一个 e 阅读全文

posted @ 2023-06-19 22:35 SRE运维进阶之路阅读(118) 评论(0) 推荐(0)

2023年6月18日

Etcd 概述

摘要： Etcd 概述什么是 Etcd ? Etcd 是 CoreOS 团队于2013年6月发起的开源项目，它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法，Etcd基于 Go 语言实现。名字由来，它源于两个方面，unix的“/etc”文件夹和阅读全文

posted @ 2023-06-18 23:32 SRE运维进阶之路阅读(160) 评论(0) 推荐(0)

2020年7月30日

IT博客写作工作

摘要：写作前 trello 官网地址:https://trello.com/ 这是一款任务管理工具，类似于敏捷开发中看板，我们可以快速管理任务。日常工作我只要想到一个 idea，就会第一时间先记录到 idea 列表中。这里千万不要高估自己的记忆力，如果想到了，感觉记录下来。以前上午灵光一现想到一个 id 阅读全文

posted @ 2020-07-30 11:43 SRE运维进阶之路阅读(48) 评论(0) 推荐(0)

公告