10.18
资源治理的手段主要包括存储治理和计算治理。其中存储治理包括表生命周期治理,无效表/相似表的识别与下线,转 EC、数据重分布与压缩等;计算治理包括无效任务识别与下线,低资源利用率任务治理,暴力扫描、高频失败任务治理等,以及计算算子和引擎的优化,还有计算任务错峰执行等。
各类优化治理的手段其实是相似的,但是如何让治理变得高效、安全、可持续,让用户“敢治、愿治”,是一件非常有挑战性的事情。因此我们的思路是对主动元数据进行充分挖掘,构建治理模型,并将治理可视化,让数据治理有依据有章法。
具体来讲,首先是元数据建设能力。元数据主要包括表分区存储、计算成本以及任务执行内存、CPU 利用率,分区访问等数据生产消费血缘,以及资产认证、任务等级、应用场景等元数据。在这些元数据的基础上,构建诸如智能生命周期推荐、模型识重、任务归属识别等模型,自动识别治理空间并给出相应治理建议。相比人工逐一评估,更高效客观,且可持续。最后建立了一套面向管理者、推动者、治理者的可视化看板,帮助用户看清资源分布以及治理成果、待解决问题等。在 23 年存算治理中超额完成了治理目标,同时该体系能够让整个治理活动持续的运营下去。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人