随笔档案「2022年7月」 - leesf

详解 Apache Hudi Schema Evolution(模式演进)

摘要：Schema Evolution（模式演进）允许用户轻松更改 Hudi 表的当前模式，以适应随时间变化的数据。从 0.11.0 版本开始，支持 Spark SQL（spark3.1.x 和 spark3.2.1）对 Schema 演进的 DDL 支持并且标志为实验性的。场景可以添加、删除、修改阅读全文

posted @ 2022-07-24 16:15 leesf 阅读(1842) 评论(0) 推荐(0)

Apache Hudi数据跳过技术加速查询高达50倍

摘要：介绍在 Hudi 0.10 中，我们引入了对高级数据布局优化技术的支持，例如 Z-order和希尔伯特空间填充曲线（作为新的聚类算法），即使在经常使用过滤器查询大表的复杂场景中，也可以在多个列而非单个列上进行数据跳过。但实际上什么是Data Skipping数据跳过？随着存储在数据湖中的数据规阅读全文

posted @ 2022-07-18 22:09 leesf 阅读(947) 评论(0) 推荐(1)

深入理解Apache Hudi异步索引机制

摘要：在我们之前的文章中，我们讨论了多模式索引的设计，这是一种用于Lakehouse架构的无服务器和高性能索引子系统，以提高查询和写入性能。在这篇博客中，我们讨论了构建如此强大的索引所需的机制，异步索引机制的设计，类似于 PostgreSQL 和 MySQL 等流行的数据库系统，它支持索引构建而不会阻塞写阅读全文

posted @ 2022-07-07 06:46 leesf 阅读(1074) 评论(0) 推荐(0)

leesf

掌控之中，才会成功；掌控之外，注定失败。

07 2022 档案

公告