12 2022 档案
摘要:介绍 从数据库到数据仓库,最后到数据湖,随着数据量和数据源的增加,数据格局正在迅速变化。 数据湖市场预计增长近 30%,将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。 此外从 2022 年数据和人工智能峰会来看,数据湖架构显然是数据管理和治理的未来。 由于 Datab
阅读全文
摘要:Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上,即利用索引查找该纪录是新增(I)还是更新(U),以提高写入过程中纪录的打标(tag)速度。 MetaDataTabl
阅读全文
摘要:背景 在 Apache Hudi支持完整的Schema演变的方案中(https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q), 读取方面,只完成了SQL on Spark的支持(Spark3以上,用于离线分析场景),Presto(用于在线OLAP场景)及A
阅读全文