手把手带你使用Karpenter减少K8s集群资源浪费
posted @ 2025-01-08 15:21
posted @ 2025-01-08 15:21
本文介绍如何通过 Karpenter 动态调度阿里云 Spot 实例运行 Spark 作业,实现 90%+ 成本节省。 涵盖集群搭建、Spark Operator/Karpenter 部署、Executor 弹性扩缩配置及效果验证,提供完整代码示例。 阅读时间约 10 分钟(技术细节较多,含代码及配
阅读全文
posted @ 2025-02-27 12:30
本文由网络安全独角兽 Orca Security 的 FinOps 工程师 Ilay Simon 撰写,介绍了他们如何一步一步通过减少闲置资源来削减 Kubernetes 成本。 背景 Kubernetes 是一个强大的工作负载编排平台,但成本管理往往是一大挑战。当我们首次分析 AWS Kubern
阅读全文
posted @ 2025-03-05 11:14
引言 在 2023 年的 KubeCon 北美大会上,微软宣布在 Azure Kubernetes Service(AKS) 中引入 Karpenter 作为 Cluster Autoscaler(CA)的替代方案,并将其命名为 Node Autoprovisioning(NAP)。 虽然 Clus
阅读全文
posted @ 2025-03-07 13:42
01/引言 对于实施多云或混合云策略的企业来说,kOps 是一个理想的 Kubernetes 集群管理工具。它通过统一的配置文件(YAML 或 JSON)实现跨多个云环境(如 AWS、GCP、Azure)或本地数据中心的集群管理。 kOps 提供了丰富的自定义选项,包括控制面节点和工作节点的操作系统
阅读全文
posted @ 2025-03-21 18:05
前言 在当前云原生架构日益复杂、资源使用碎片化的趋势下,控制和优化云成本成为了企业管理中越来越重要的一环。如何做到“把钱花在刀刃上”——避免计算资源冗余和隐藏支出,成为广大企业和工程师重点关注的话题。 尤其对于使用 AWS 的企业来说,按量计费虽然灵活,但一旦资源配置不合理、未能及时释放,就可能造成
阅读全文
posted @ 2025-04-23 17:39
01/引言 在云计算领域,尤其是在像 QA(Quality Assurance)这样并非生产环境的场景中,基础设施的成本管理始终是一个挑战。 我们的 QA 环境对测试的稳定性要求较高,但我们注意到,大量基础设施成本都花在了 EC2 按需实例上。经过深入调研,我们决定在 QA 环境中引入 Karpen
阅读全文
posted @ 2025-05-06 23:47
posted @ 2025-05-14 00:06
Snowflake 的 IT 云运营团队迎来了云基础设施演进的关键转折点。随着 Amazon EKS 上容器化工作负载规模不断扩大,他们亟需一个更现代、安全且高效的操作系统。 其原有基于 Amazon Linux 2(AL2)的架构虽能运行,却存在多重挑战: 安全加固需频繁更新补丁导致运维负担加重;
阅读全文
posted @ 2025-05-21 11:57
使用 AWS Spot 实例可以显著降低云成本,最多可比按需实例节省 90%。对于 Kubernetes 集群而言,Spot 实例尤其适合运行具备弹性、非关键或突发型的工作负载,是实现性价比的理想选择。 不过,Spot 实例自带“中断风险”——AWS 仅提前 2 分钟发出终止通知(CloudPilo
阅读全文
posted @ 2025-05-30 13:47
你是否有过这样的经历? 精心配置了 Kubernetes 的 Pod,设置了“刚刚好”的 CPU 和内存(至少你当时是这么想的),结果应用不是资源紧张喘不过气,就是像“双十一”抢购一样疯狂抢占资源。 过去,唯一的解决办法就是重启整个Pod ——这种破坏性的做法就像用黄油刀做开胸手术,而 SRE 团队
阅读全文
posted @ 2025-06-09 12:12
引言 在这个信息爆炸的时代,一条突发新闻可能会在几分钟内吸引上百万用户同时涌入网站。 作为全球最具影响力的新闻机构之一,《纽约时报》如何应对这样的超高流量冲击?如何有效减少流量高峰期资源配置下的高昂成本?如何在短时间内完成快速弹性伸缩? 本文根据《纽约时报》高级软件工程师 Mel Cone 和 De
阅读全文
posted @ 2025-06-12 16:47
Fiverr 是全球知名的自由职业在线平台之一,成立于2010年,目前在全球拥有400万买家,年度交易额达11.3亿美元。 本文将介绍 Fiverr 基础设施团队在 2024 年完成的一项迁移实践,详细记录了他们如何从 Kubernetes 迁移至 Karpenter,并从中获得了哪些收益。另外,还
阅读全文
posted @ 2025-06-16 17:47
在 Kubernetes 中,资源管理一直是个难题。配置复杂、调优困难,容易导致资源浪费和成本上升。虽然 Cluster Autoscaler 提供了基础的自动扩缩能力,但由于依赖节点组机制,响应慢、配置繁琐。 Karpenter 作为更灵活的替代方案,通过直接与云厂商交互加快了扩缩容速度,简化了管
阅读全文
posted @ 2025-06-19 15:55
01|令人措手不及的告警 那是一个周日的早晨,我正刷着牙,手机却突然开始疯狂震动: Slack 告警(来自 AWS): “您本月的支出已超过预算的 80%。” 财务团队紧急消息: “今天早上 AWS 为什么一下子扣了我们 $5,000?” 原来,原本应该“智能”的 Kubernetes 弹性伸缩彻底
阅读全文
posted @ 2025-07-02 10:12
posted @ 2025-07-21 10:35
2025年,云计算的基础设施管理方式将迎来根本性转变。如果您仍在自建基础设施,现在正是重新思考扩展策略的时机:将关注点从"需要多少台虚拟机"转变为"如何最有效地运行我的工作负载"。这一思维转换,正是云原生架构迈向下一阶段的关键。
阅读全文
posted @ 2025-11-26 18:20