09 2021 档案

摘要:1. 摘要 在之前的一篇博客中,我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能,而不用降低摄取速度,并且我们已经知道如何部署同步Clustering,本篇博客中,我们将讨论近期社区做的一些改进以及如何通过HoodieClusteringJob和DeltaStream 阅读全文
posted @ 2021-09-26 22:15 leesf 阅读(1717) 评论(0) 推荐(0) 编辑
摘要:1. 摘要 Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。 在本博客中,我们将深入探讨现有直接标记文件机制的设计,并解释了其在云存储(如 AWS S3、Aliyun OSS)上针对非常大批量写入的性能问题。 并且演示如何通过 阅读全文
posted @ 2021-09-12 21:36 leesf 阅读(821) 评论(0) 推荐(1) 编辑
摘要:1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABL 阅读全文
posted @ 2021-09-05 22:31 leesf 阅读(990) 评论(0) 推荐(0) 编辑