摘要: [TOC] Kudu、Hudi和Delta Lake的比较 kudu、hudi和delta lake是目前比较热门的支持行级别数据增删改查的存储方案,本文对三者之间进行了比较。 存储机制 kudu kudu的存储机制和hudi的写优化方式有些相似。 kudu的最新数据保存在内存,称为MemRowSe 阅读全文
posted @ 2020-01-05 19:58 夜飞辰 阅读(8834) 评论(0) 推荐(0) 编辑
摘要: [TOC] Delta Lake源码分析 本文主要从代码的具体实现方面进行讲解,关于delta lake的事务日志原理,可以看这篇博客,讲解的很详细。 https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650717784&idx=2&sn= 阅读全文
posted @ 2019-12-27 15:35 夜飞辰 阅读(1125) 评论(0) 推荐(1) 编辑
摘要: [TOC] Delta Lake 特性 支持ACID事务 可扩展的元数据处理 统一的流、批处理API接口 更新、删除数据,实时读写(读是读当前的最新快照) 数据版本控制,根据需要查看历史数据快照,可回滚数据 自动处理schema变化,可修改表结构 maven依赖 使用aws s3文件系统快速启动 基 阅读全文
posted @ 2019-12-26 14:18 夜飞辰 阅读(3678) 评论(0) 推荐(0) 编辑