随笔分类 - 大数据技术栈 / DataLake
数据湖 iceberg hudi等
摘要:1. Iceberg构建数据湖 核心思想 在时间轴上跟踪表的所有变化; 快照表示表数据文件的一个完整集合; 每次更新操作会生成一个新的快照; 特性 ① 优化数据入库流程 Iceberg提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化了ETL; Iceberg提供upser
阅读全文
摘要:1. Hudi核心概念 Hudi核心组件结构 通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中,有新增的写到预写日志log中
阅读全文