随笔档案「2022年3月」 - leesf

Robinhood基于Apache Hudi的下一代数据湖实践

摘要：1. 摘要 Robinhood 的使命是使所有人的金融民主化。 Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表阅读全文

posted @ 2022-03-31 15:54 leesf 阅读(309) 评论(0) 推荐(0)

重磅！Vertica集成Apache Hudi指南

摘要：1. 摘要本文演示了使用外部表集成 Vertica 和 Apache Hudi。在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中，并使用 Vertica 外部表访问这些数据。 2. Apache Hudi介绍 Apache Hudi 是一种变更数据捕获 (CDC 阅读全文

posted @ 2022-03-29 15:50 leesf 阅读(488) 评论(0) 推荐(0)

超硬核解析！Apache Hudi灵活的Payload机制

摘要：Apache Hudi 的Payload是一种可扩展的数据处理机制，通过不同的Payload我们可以实现复杂场景的定制化数据写入方式，大大增加了数据处理的灵活性。Hudi Payload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类，通过使用参数 "hoodie.datasourc 阅读全文

posted @ 2022-03-28 19:40 leesf 阅读(1408) 评论(0) 推荐(0)

一文带你了解Lakehouse的并发控制：我们是否过于乐观

摘要：1. 概述如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。有幸从事过各种数据库项目——RDBMS (Oracle)、NoSQL 键值存储 (Voldemort)、流数据库 ( 阅读全文

posted @ 2022-03-27 10:30 leesf 阅读(418) 评论(0) 推荐(1)

查询性能提升3倍！Apache Hudi 查询优化了解下？

摘要：从 Hudi 0.10.0版本开始，我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持。 1. 背景 Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的，为了更好地了解发生了什么以及它与空间填充曲线阅读全文

posted @ 2022-03-06 17:19 leesf 阅读(1195) 评论(0) 推荐(1)

leesf

掌控之中，才会成功；掌控之外，注定失败。

03 2022 档案

公告