Fork me on GitHub

随笔分类 -  大数据技术栈 / DataLake

数据湖 iceberg hudi等
摘要:1. Iceberg构建数据湖 核心思想 在时间轴上跟踪表的所有变化; 快照表示表数据文件的一个完整集合; 每次更新操作会生成一个新的快照; 特性 ① 优化数据入库流程 Iceberg提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化了ETL; Iceberg提供upser 阅读全文
posted @ 2021-09-26 21:36 kris12 阅读(1881) 评论(0) 推荐(0) 编辑
摘要:1. Hudi核心概念 Hudi核心组件结构 通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中,有新增的写到预写日志log中 阅读全文
posted @ 2021-09-26 21:36 kris12 阅读(1360) 评论(0) 推荐(0) 编辑

levels of contents
点击右上角即可分享
微信分享提示