06 2020 档案

摘要:一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据湖原语等。 什么是数据湖?数据湖是一个集中式的存储,允许以任意规模 阅读全文
posted @ 2020-06-27 21:30 leesf 阅读(2188) 评论(0) 推荐(1) 编辑
摘要:1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据 阅读全文
posted @ 2020-06-21 12:43 leesf 阅读(1625) 评论(0) 推荐(0) 编辑
摘要:1. 下载连接 源代码下载:Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址:https://repository.apache.org/#nexus-search;quick~hudi 2. 迁移指南 这是一个bugfix 阅读全文
posted @ 2020-06-19 09:41 leesf 阅读(940) 评论(0) 推荐(0) 编辑
摘要:1. 引入 大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据湖时,更新数据并不罕见。根据不同场景,这些更新频率可能是每 阅读全文
posted @ 2020-06-15 09:27 leesf 阅读(4685) 评论(0) 推荐(0) 编辑
摘要:1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织也可以 阅读全文
posted @ 2020-06-11 09:29 leesf 阅读(1101) 评论(0) 推荐(1) 编辑
摘要:通过Spark作业将数据写入Hudi时,Spark应用的调优技巧也适用于此。如果要提高性能或可靠性,请牢记以下几点。 **输入并行性:**Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都在2GB的限制内(在Spark2.4.0版本之后去除了该限制),如果有更大的输入,则相应地进 阅读全文
posted @ 2020-06-06 15:54 leesf 阅读(1859) 评论(0) 推荐(0) 编辑
摘要:马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括A 阅读全文
posted @ 2020-06-05 13:42 leesf 阅读(1031) 评论(2) 推荐(0) 编辑
摘要:1. 可用性 在Hudi最新master分支,由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标,该功能将在0.6.0 版本发布,也感谢Raymond的投稿。 2. 简介 Datadog是一个流行的监控服务。在即将发布的Apache Hudi 0.6.0版本中,除已有的 阅读全文
posted @ 2020-06-03 20:17 leesf 阅读(2100) 评论(0) 推荐(0) 编辑