随笔档案「2021年9月」 - leesf

一文彻底掌握Apache Hudi异步Clustering部署

摘要：1. 摘要在之前的一篇博客中，我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能，而不用降低摄取速度，并且我们已经知道如何部署同步Clustering，本篇博客中，我们将讨论近期社区做的一些改进以及如何通过HoodieClusteringJob和DeltaStream 阅读全文

posted @ 2021-09-26 22:15 leesf 阅读(1875) 评论(0) 推荐(0)

Apache Hudi内核之文件标记机制深入解析

摘要：1. 摘要 Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。在本博客中，我们将深入探讨现有直接标记文件机制的设计，并解释了其在云存储（如 AWS S3、Aliyun OSS）上针对非常大批量写入的性能问题。并且演示如何通过阅读全文

posted @ 2021-09-12 21:36 leesf 阅读(933) 评论(0) 推荐(1)

Apache Hudi 0.9.0版本重磅发布！更强大的流式数据湖平台

摘要：1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持，朝着使所有角色（非工程师、分析师等）更容易访问和操作 Hudi 迈出了一大步。用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABL 阅读全文

posted @ 2021-09-05 22:31 leesf 阅读(1059) 评论(0) 推荐(0)

leesf

掌控之中，才会成功；掌控之外，注定失败。

09 2021 档案

公告