04 2021 档案

摘要:随着数据湖概念的流行,涌现了很多关于Apache Hudi的文章,但很多文章在阐述时仅仅将Hudi当做一种表格式,这引发了社区的思考,思考Hudi的愿景到底是什么,并且在Hudi社区发起了讨论重新审视Hudi。 我们更倾向于将Hudi当做一个数据湖平台,包含表格式,还包含支持事务的存储层。并重新设计 阅读全文
posted @ 2021-04-24 21:49 leesf 阅读(173) 评论(0) 推荐(0) 编辑
摘要:1. 概述 成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规模数据分析应用程序。Amazon EMR自动管理这些框架的配置和扩缩容,并通过优化的运行时提供更高性 阅读全文
posted @ 2021-04-17 15:41 leesf 阅读(696) 评论(0) 推荐(0) 编辑
摘要:1. 重点特性 1.1 Flink集成 自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline;支持Flink写入MOR表;Flink批量读取COW和MOR表;流式读取MO 阅读全文
posted @ 2021-04-13 19:01 leesf 阅读(637) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 Hudi中的每个记录都由HoodieKey唯一标识,HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。Hudi使用分区路径字段对数据集进行分区,并且分区内的记录有唯一的记录键。由于仅在分区内保证唯一性,因此在不同分区之间可能存在具有 阅读全文
posted @ 2021-04-12 10:12 leesf 阅读(3075) 评论(0) 推荐(0) 编辑
摘要:1. 引入 Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预。大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据,如果不进行处理,会产生很多小文件。 2. 阅读全文
posted @ 2021-04-11 09:26 leesf 阅读(2465) 评论(1) 推荐(1) 编辑
摘要:感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作。 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景;AWS 在 EMR 阅读全文
posted @ 2021-04-10 12:18 leesf 阅读(6249) 评论(0) 推荐(0) 编辑
摘要:1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入 减少碎片化工具的使用 CDC 增量导入 RDBMS 数据 限制小文件的大小和数量 近实时分析 相对于秒级存储 (Druid, OpenTSDB) ,节省资源 提供分钟级别时效性,支撑更高效 阅读全文
posted @ 2021-04-08 13:01 leesf 阅读(2386) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 Apache Hudi是一个开源的数据湖框架,旨在简化增量数据处理和数据管道开发。借助Hudi可以在Amazon S3、Aliyun OSS数据湖中进行记录级别管理插入/更新/删除。AWS EMR集群已支持Hudi组件,并且可以与AWS Glue Data Catalog无缝集成。此特性 阅读全文
posted @ 2021-04-06 09:51 leesf 阅读(810) 评论(0) 推荐(0) 编辑