摘要: 云原生实践总结 👉 作为一名SRE,在运维云原生过程中的实践总结、沉淀,以便自己回顾和他人查阅,希望能帮助你在云原生领域的平稳落地。 📖 全文字数:1.6k+ ⏳ 阅读时长:4min 企业落地云原生的目的 一句话概括:在保证稳定性的前提下,降本增效 目标拆解: 保障稳定性 建设高可用性:基础组件 阅读全文
posted @ 2024-01-21 18:23 SRE运维进阶之路 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 容器化后无损上下线解决方案 说明: 本文主要以 Spring Cloud 应用举例 1. 背景 绝大数事故发生在应用上下线发布阶段,所以要尽可能避免发布过程中由于应用自身代码问题对用户造成的影响。 业界发布规范: 可灰度(可以通过 Argo Rollout/OpenKruise 支持) 可观测(容器 阅读全文
posted @ 2023-11-20 20:55 SRE运维进阶之路 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 弹性伸缩落地实践 1. 什么是 HPA ? HPA(Horizontal Pod Autoscaler)是 Kubernetes 中的一种资源自动伸缩机制,用于根据某些指标动态调整 Pod 的副本数量。 2. 什么时候需要 HPA ? 负载波动:当您的应用程序的负载经常发生波动时,HPA 可以自动调 阅读全文
posted @ 2023-11-17 09:37 SRE运维进阶之路 阅读(52) 评论(0) 推荐(0) 编辑
摘要: Etcd 故障排查 Etcd 磁盘空间爆满解决方案 etcd默认的空间配额限制为2G,超出空间配额限制就会影响服务,所以需要定期清理 设置环境变量 ETCD_CA_CERT="/etc/kubernetes/pki/etcd/ca.crt"ETCD_CERT="/etc/kubernetes/pki 阅读全文
posted @ 2023-06-23 14:09 SRE运维进阶之路 阅读(131) 评论(0) 推荐(0) 编辑
摘要: Etcd 监控 重点监控指标 指标分类 健康状态 USE 方法(系统) 使用率 饱和度 错误 RED 方法(应用) 请求速率 错误率 延迟 指标分类指标释义 健康状态 实例健康状态 etcd是一个分布式系统,由多个成员节点组成。监控etcd成员节点的状态可以帮助你了解集群中节点的健康状况,发现掉线或 阅读全文
posted @ 2023-06-21 20:47 SRE运维进阶之路 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 评估 Etcd 性能及可靠性 SLI & SLO SLI(Service Level Indicator):服务等级指标,其实就是我们选择哪些指标来衡量我们的稳定性。 SLO(Service Level Objective):服务等级目标,指的就是我们设定的稳定性目标,比如“几个 9”这样的目标。 阅读全文
posted @ 2023-06-20 20:46 SRE运维进阶之路 阅读(130) 评论(0) 推荐(0) 编辑
摘要: Etcd 高可用故障演练 目的 本次演练旨在测试 Kubernetes 的 etcd 高可用性,检验是否能够在其中一个 etcd 节点发生故障的情况下,其他 etcd 节点能够接管其工作,确保集群仍能正常运行。 集群架构 演练场景 在一个三节点的 Kubernetes 集群中,我们将模拟其中一个 e 阅读全文
posted @ 2023-06-19 22:35 SRE运维进阶之路 阅读(60) 评论(0) 推荐(0) 编辑
摘要: Etcd 概述 什么是 Etcd ? Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。 名字由来,它源于两个方面,unix的“/etc”文件夹和 阅读全文
posted @ 2023-06-18 23:32 SRE运维进阶之路 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 写作前 trello 官网地址:https://trello.com/ 这是一款任务管理工具,类似于敏捷开发中看板,我们可以快速管理任务。 日常工作我只要想到一个 idea,就会第一时间先记录到 idea 列表中。这里千万不要高估自己的记忆力,如果想到了,感觉记录下来。以前上午灵光一现想到一个 id 阅读全文
posted @ 2020-07-30 11:43 SRE运维进阶之路 阅读(33) 评论(0) 推荐(0) 编辑