摘要: Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含 阅读全文
posted @ 2022-04-09 10:05 大数据从业者FelixZh 阅读(1265) 评论(0) 推荐(0) 编辑