随笔档案「2020年6月」 - leesf

使用Apache Hudi构建大规模、事务性数据湖

摘要：一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍，主要从事数据方面的工作，包括摄取标准化，数据湖原语等。什么是数据湖？数据湖是一个集中式的存储，允许以任意规模阅读全文

posted @ 2020-06-27 21:30 leesf 阅读(2272) 评论(0) 推荐(1)

Apache Hudi：云数据湖解决方案

摘要：1. 引入开源Apache Hudi项目为Uber等大型组织提供流处理能力，每天可处理数据湖上的数十亿条记录。随着世界各地的组织采用该技术，Apache开源数据湖项目已经日渐成熟。 Apache Hudi（Hadoop Upserts Deletes and Incrementals）是一个数据阅读全文

posted @ 2020-06-21 12:43 leesf 阅读(1666) 评论(0) 推荐(0)

特性速览| Apache Hudi 0.5.3版本正式发布

摘要：1. 下载连接源代码下载：Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址：https://repository.apache.org/#nexus-search;quick~hudi 2. 迁移指南这是一个bugfix 阅读全文

posted @ 2020-06-19 09:41 leesf 阅读(975) 评论(0) 推荐(0)

使用Apache Spark和Apache Hudi构建分析数据湖

摘要：1. 引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每阅读全文

posted @ 2020-06-15 09:27 leesf 阅读(4751) 评论(0) 推荐(0)

Uber基于Apache Hudi构建PB级数据湖实践

摘要：1. 引言从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织也可以阅读全文

posted @ 2020-06-11 09:29 leesf 阅读(1147) 评论(0) 推荐(1)

调优 | Apache Hudi应用调优指南

摘要：通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。 **输入并行性：**Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进阅读全文

posted @ 2020-06-06 15:54 leesf 阅读(1918) 评论(0) 推荐(0)

官宣！ASF官方正式宣布Apache Hudi成为顶级项目

摘要：马萨诸塞州韦克菲尔德（Wakefield，MA）- 2020年6月 - Apache软件基金会（ASF）、350多个开源项目和全职开发人员、管理人员和孵化器宣布：Apache Hudi正式成为Apache顶级项目（TLP）。在投票表决Hudi毕业时，Hudi总共获得了19票binding（其中包括A 阅读全文

posted @ 2020-06-05 13:42 leesf 阅读(1075) 评论(2) 推荐(0)

实战| 配置DataDog监控Apache Hudi应用指标

摘要：1. 可用性在Hudi最新master分支，由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标，该功能将在0.6.0 版本发布，也感谢Raymond的投稿。 2. 简介 Datadog是一个流行的监控服务。在即将发布的Apache Hudi 0.6.0版本中，除已有的阅读全文

posted @ 2020-06-03 20:17 leesf 阅读(2159) 评论(0) 推荐(0)

leesf

掌控之中，才会成功；掌控之外，注定失败。

06 2020 档案

公告