01 2021 档案

摘要:重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增加文件大小,有了Clustering特性,便可更快速地摄取数据,然后聚簇为更大的文件,实验数据表明查 阅读全文
posted @ 2021-01-31 22:14 leesf 阅读(1119) 评论(0) 推荐(0) 编辑
摘要:1. 摘要 数仓架构在未来一段时间内会逐渐消亡,会被一种新的Lakehouse架构取代,该架构主要有如下特性 基于开放的数据格式,如Parquet; 机器学习和数据科学将被作为头等公民支持; 提供卓越的性能; Lakehouse可以解决数据仓库面临的几个主要挑战,如数据陈旧,可靠性,总成本,数据格式 阅读全文
posted @ 2021-01-23 22:52 leesf 阅读(3417) 评论(0) 推荐(1) 编辑
摘要:英文原文:https://hudi.apache.org/blog/hudi-indexing-mechanisms/ Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge 阅读全文
posted @ 2021-01-01 09:59 leesf 阅读(1292) 评论(1) 推荐(0) 编辑