10.29
数据回填,主要基于数据的生产血缘,包括表依赖血缘、任务依赖血缘等。
该方案主要包括以下几个功能模块:
回填感知:通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息,通过分区检查器、版本变更感知器确定回填日期范围;
回填编排:构建数据生产血缘,逐层解析表分区回填依赖,编排回填拓扑;
优化执行:依据回填拓扑和任务执行的元数据,将回填日期范围拆解为不同批次,系统化创建回填实例,通过并发协调器动态提交执行实例,运行完成后对结果进行校验并通知回填结果。
该方案的核心思路是充分挖掘数据生产消费血缘,依据血缘进行自动检查和确认,从而替代手工检查,提升回填效率;该项能力的依赖项是需要算子级的数据血缘能力。目前平台已经具备此能力,同时依据任务执行元数据进行多分区合并,并提交批次,大幅降低资源消耗,使用户从关注过程到仅关注结果,把更多的时间放在有价值的事情上。目前该方案正在建设中,预计今年 Q2 上线。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人