随笔档案「2022年4月」 - leesf

Apache Hudi 如何加速传统的批处理模式？

摘要：1. 现状说明 1.1 数据湖摄取和计算过程 - 处理更新在我们的用例中1-10% 是对历史记录的更新。当记录更新时，我们需要从之前的 updated_date 分区中删除之前的条目，并将条目添加到最新的分区中，在没有删除和更新功能的情况下，我们必须重新读取整个历史表分区 → 去重数据 → 用新的阅读全文

posted @ 2022-04-23 06:24 leesf 阅读(487) 评论(0) 推荐(0)

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

摘要：1. 摘要在本博客中，我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。增量消费--每 30 分钟处理一次数据，并在我们的组织内构建每小时级别的OLAP平台事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储（如 AWS S3）中存储 10 天的事件阅读全文

posted @ 2022-04-11 17:40 leesf 阅读(752) 评论(0) 推荐(0)

基于Apache Hudi在Google云构建数据湖平台

摘要：自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进行有效的业务分析，必须对现代应用程序创建的数据进行处理和分阅读全文

posted @ 2022-04-07 08:22 leesf 阅读(419) 评论(0) 推荐(0)

重磅！Apache Hudi联合传智教育推出免费中文视频教程

摘要：基础介绍 Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是： Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记阅读全文

posted @ 2022-04-06 09:36 leesf 阅读(357) 评论(0) 推荐(0)

基于Apache Hudi和Debezium构建CDC入湖管道

摘要：从 Hudi v0.10.0 开始，我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源，它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取。有关详细信息请参阅原始 RFC 1. 背景当想要对来自事务数据库（如 Postgres 阅读全文

posted @ 2022-04-05 20:36 leesf 阅读(596) 评论(0) 推荐(0)

leesf

掌控之中，才会成功；掌控之外，注定失败。

04 2022 档案

公告