11 2022 档案

摘要:你曾经是否有构建一个开源数据湖来存储数据以进行分析需求? 数据湖包括哪些组件和功能? 不了解 Lakehouse 和 数据仓库 之间的区别? 或者只是想管理数百到数千个文件并拥有更多类似数据库的功能但不知道如何操作? 本文解释了数据湖的细节以及哪些技术可以构建一个Lakehouse,以避免创建没有结 阅读全文
posted @ 2022-11-27 11:13 leesf 阅读(503) 评论(0) 推荐(0) 编辑
摘要:1.场景需求 在医疗场景下,涉及到的业务库有几十个,可能有上万张表要做实时入湖,其中还有某些库的表结构修改操作是通过业务人员在网页手工实现,自由度较高,导致整体上存在非常多的新增列,删除列,改列名的情况。由于Apache Hudi 0.9.0 版本到 0.11.0 版本之间只支持有限的schema变 阅读全文
posted @ 2022-11-20 11:31 leesf 阅读(863) 评论(0) 推荐(0) 编辑
摘要:背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 FusionInsight MRS智能数据湖解决方案中。 目前主流的三大数据湖组件 Apache Hudi、I 阅读全文
posted @ 2022-11-07 09:12 leesf 阅读(771) 评论(0) 推荐(0) 编辑