TCL 拥抱云原生,实现 IT 成本治理优化

作者:行疾

TCL 工程师团队基于阿里云企业云原生 IT 成本治理方案沉淀了一套成熟的 IT 企业成本治理流程与系统,通过阿里云容器服务提供的开箱即用的成本洞察、资源智能画像等功能,进行业务成本拆分、闲置资源可视化发现,并制定弹性伸缩与混部等优化策略,为集团优化了 10% 闲置的资源, 各类业务降低了 30% 的配额, 每年节省近百万的 IT 成本投入。

客户简介

image.png

TCL 创立于 1981 年,总部设于中国广东省惠州市,目前已形成 TCL 实业和 TCL 科技两大主体,布局智能终端、半导体显示、新能源光伏三大核心产业,成长为一家具有全球竞争力的智能科技产业集团。TCL 目前拥有 13 万名员工,在全球布局 43 个研发中心和 32 个制造基地,业务遍及 160 多个国家和地区,全球累计服务用户超 9.6 亿。

客户痛点

整体资源利用率较低,成本洞察粒度不足,无法驱动策略优化。 在早期上云的过程中,TCL 通过给不同的事业部分配独立云账号的方式,实现成本单元的规划与核算。但是当工程师团队希望去洞察整体的资源使用、浪费情况的时候,单纯从服务器等云资源的利用率情况来衡量业务的容量规划浪费情况是不够合理的。因为从单个业务的视角,容量规划需要根据业务的峰值情况来规划。

业务高速发展,传统容量规划的周期无法满足, 影响业务使用。 TCL 上云的过程经历了上云迁移期、业务增长期、业务稳定期等多个阶段,在上云迁移期和业务增长期中,发现传统按照月度、 季度甚至是年度的 IT 成本治理的周期,无法跟上业务增长的速度,造成很多业务处于无资源可用 或者超预算使用的情况。

临时作业 / 突发任务等短周期作业较多,对容量规划带来巨大挑战。 TCL 压测平台是一个被重点关注的业务, 因为压测任务具有短时间、大规模、低成本的的要求,是传统企业 IT 成本管理中最难以处理和解决的资源类型,但也是上云按需使用的最佳场景。

业务容量、 成本预估困难, 缺少数字化指标支撑降本增效。 在 TCL 工程师团队定下降本增效的目标后,如何数字化衡量和评估应用的容量和成本情况,成为了最大的挑战。只有当一个应用的资源成本画像可以被准确绘制的时候,才能够有针对性的建立优化策略。

方案亮点

image.png

△ 阿里云云原生企业 IT 成本治理方案

洞察资源使用量, 调控周期性业务成本, 提高集群利用率。 先根据应用的具体类型进行分类,选择合适的机型、CPU/内存的配置;与业务团队协商业务容量上限,并对业务进行全链路压测确定容量的画像和水位的情况。在压测的过程中,通过阿里云容器服务提供的成本洞察功能,可以查看应用在当前容量规划的方案下的真实利用率;对于存在明显的周期性业务,采用定时伸缩的模型,降低在波谷时的资源成本;调整生产环境和测试环境的超卖比配置,将测试环境的超卖比调整为 300%,提高集群利用率。

精细化成本管理,合理规划容量,应对突发业务。 定时查看、巡检集群中应用的利用率、资源水位的情况,汇总成本报表;通过云原生企业IT成本治理方案中,阿里云容器服务成本洞察功能,对业务进行集群 - 部门 - 应用维度的成本实时预估,让部门可以时刻关注自身成本的趋势变化;开启 HPA 等自动伸缩策略与报警,保障业务在流量突增的场景的鲁棒性。

快速预估成本, 基于数字化指标精准绘制资源成本画像。 通过阿里云云原生企业 IT 成本治理方案中提供的费用分摊等功能,定期将拆分后的成本分析数据推送给事业部 IT 负责人、部门负责人、业务负责人等不同角色,并建立复盘机制,协同技术、财务、业务团队迭代优化成本画像的合理性。

image.png

△ 通过成本洞察,形成资源成本画像后,最终制定了兼具稳定性、成本优化的 HPA 自动扩缩策略

建设成果

通过阿里云云原生企业 IT 成本治理方案,TCL 工程师团队可以非常便捷地提供 Kubernetes 集群中的业务、组织等维度的成本数据,大大提升了部门之间的成本通晒的效率,配合技术、业务、财务“战略同频”的云原生 IT 成本治理流程,为集团优化了 10%  闲置的资源, 各类业务降低了 30% 的配额, 每年节省近百万的 IT 成本投入。

posted @ 2023-03-07 17:47  阿里云云原生  阅读(60)  评论(0编辑  收藏  举报