leesf

2020年8月26日

摘要： 1. 下载信息源码：Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包：nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南； 0.6.0版本从基于list的rollback策略变更为了基于阅读全文

posted @ 2020-08-26 09:09 leesf 阅读(1086) 评论(0) 推荐(1)

2020年8月18日

详解Apache Hudi如何配置各种类型分区

摘要： 1. 引入 Apache Hudi支持多种分区方式数据集，如多级分区、单分区、时间日期分区、无分区数据集等，用户可根据实际需求选择合适的分区方式，下面来详细了解Hudi如何配置何种类型分区。 2. 分区处理为说明Hudi对不同分区类型的处理，假定写入Hudi的Schema如下 { "type" : 阅读全文

posted @ 2020-08-18 09:48 leesf 阅读(3366) 评论(0) 推荐(0)

2020年8月10日

Apache Hudi表自动同步至阿里云数据湖分析DLA

摘要： 1. 引入 Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中，对于云上其他使用与Hive不同SQL语法MetaStore则无法支持，为解决这个问题，近期社区对原先的同步模块hudi-hive-sync进行了抽象改造，以支持将Hudi表同步到其他类型M 阅读全文

posted @ 2020-08-10 19:01 leesf 阅读(967) 评论(0) 推荐(0)

2020年8月3日

Apache Hudi + AWS S3 + Athena实战

摘要： Apache Hudi在阿里巴巴集团、EMIS Health，LinkNovate，Tathastu.AI，腾讯，Uber内使用，并且由Amazon AWS EMR和Google云平台支持，最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力，本博客将测试阅读全文

posted @ 2020-08-03 19:25 leesf 阅读(1551) 评论(0) 推荐(0)

2020年7月27日

官宣！AWS Athena正式可查询Apache Hudi数据集

摘要： 1. 引入 Apache Hudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。 Hudi处理数据插入和更新，不会创建太多的小文件(小文件会导致查询端性能降低)，Apache H 阅读全文

posted @ 2020-07-27 11:19 leesf 阅读(691) 评论(0) 推荐(1)

2020年7月20日

生态 | Apache Hudi集成Alluxio实践

摘要：原文链接：https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连阅读全文

posted @ 2020-07-20 20:51 leesf 阅读(1299) 评论(0) 推荐(0)

2020年7月13日

Apache Hudi重磅特性解读之存量表高效迁移机制

摘要： 1. 摘要随着Apache Hudi变得越来越流行，一个挑战就是用户如何将存量的历史表迁移到Apache Hudi，Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力，用户需要重写整个数据集让其成为Hudi表。此RFC 阅读全文

posted @ 2020-07-13 09:16 leesf 阅读(3001) 评论(0) 推荐(0)

2020年7月6日

Apache Hudi重磅特性解读之全局索引

摘要： 1. 摘要 Hudi表允许多种类型操作，包括非常常用的upsert，当然为支持upsert，Hudi依赖索引机制来定位记录在哪些文件中。当前，Hudi支持分区和非分区的数据集。分区数据集是将一组文件（数据）放在称为分区的桶中的数据集。一个Hudi数据集可能由N个分区和M个文件组成，这种组织结构也非阅读全文

posted @ 2020-07-06 18:42 leesf 阅读(2871) 评论(0) 推荐(0)

2020年6月27日

使用Apache Hudi构建大规模、事务性数据湖

摘要：一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍，主要从事数据方面的工作，包括摄取标准化，数据湖原语等。什么是数据湖？数据湖是一个集中式的存储，允许以任意规模阅读全文

posted @ 2020-06-27 21:30 leesf 阅读(2274) 评论(0) 推荐(1)

2020年6月21日

Apache Hudi：云数据湖解决方案

摘要： 1. 引入开源Apache Hudi项目为Uber等大型组织提供流处理能力，每天可处理数据湖上的数十亿条记录。随着世界各地的组织采用该技术，Apache开源数据湖项目已经日渐成熟。 Apache Hudi（Hadoop Upserts Deletes and Incrementals）是一个数据阅读全文

posted @ 2020-06-21 12:43 leesf 阅读(1666) 评论(0) 推荐(0)

2020年6月19日

特性速览| Apache Hudi 0.5.3版本正式发布

摘要： 1. 下载连接源代码下载：Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址：https://repository.apache.org/#nexus-search;quick~hudi 2. 迁移指南这是一个bugfix 阅读全文

posted @ 2020-06-19 09:41 leesf 阅读(982) 评论(0) 推荐(0)

2020年6月15日

使用Apache Spark和Apache Hudi构建分析数据湖

摘要： 1. 引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每阅读全文

posted @ 2020-06-15 09:27 leesf 阅读(4754) 评论(0) 推荐(0)

2020年6月11日

Uber基于Apache Hudi构建PB级数据湖实践

摘要： 1. 引言从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织也可以阅读全文

posted @ 2020-06-11 09:29 leesf 阅读(1148) 评论(0) 推荐(1)

2020年6月6日

调优 | Apache Hudi应用调优指南

摘要：通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。 **输入并行性：**Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进阅读全文

posted @ 2020-06-06 15:54 leesf 阅读(1919) 评论(0) 推荐(0)

2020年6月5日

官宣！ASF官方正式宣布Apache Hudi成为顶级项目

摘要：马萨诸塞州韦克菲尔德（Wakefield，MA）- 2020年6月 - Apache软件基金会（ASF）、350多个开源项目和全职开发人员、管理人员和孵化器宣布：Apache Hudi正式成为Apache顶级项目（TLP）。在投票表决Hudi毕业时，Hudi总共获得了19票binding（其中包括A 阅读全文

posted @ 2020-06-05 13:42 leesf 阅读(1076) 评论(2) 推荐(0)

2020年6月3日

实战| 配置DataDog监控Apache Hudi应用指标

摘要： 1. 可用性在Hudi最新master分支，由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标，该功能将在0.6.0 版本发布，也感谢Raymond的投稿。 2. 简介 Datadog是一个流行的监控服务。在即将发布的Apache Hudi 0.6.0版本中，除已有的阅读全文

posted @ 2020-06-03 20:17 leesf 阅读(2162) 评论(0) 推荐(0)

2020年5月29日

Apache Hudi在医疗大数据中的应用

摘要：本篇文章主要介绍Hudi在医疗大数据中的应用，主要分为５个部分进行介绍：1. 建设背景，2. 为什么选择Hudi，3. Hudi数据同步，4. 存储类型选择及查询优化，5. 未来发展与思考。 1. 建设背景我们公司主要为医院建立大数据应用平台，需要从各个医院系统中抽取数据建立大数据平台。如医院信息阅读全文

posted @ 2020-05-29 23:54 leesf 阅读(1469) 评论(0) 推荐(0)

2020年5月23日

填坑！线上Presto查询Hudi表异常排查

摘要： 1. 引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下报Hudi表中文件格式不是合法的parquet格式错误。 2. 问题复现开始根据用户提供的信息，模拟线上Hudi数据集大小、Presto和Hudi版本阅读全文

posted @ 2020-05-23 18:39 leesf 阅读(2583) 评论(0) 推荐(0)

2020年5月19日

Apache Hudi典型应用场景知多少？

摘要： 1.近实时摄取将数据从外部源如事件日志、数据库提取到 "Hadoop数据湖" 中是一个很常见的问题。在大多数Hadoop部署中，一般使用混合提取工具并以零散的方式解决该问题，尽管这些数据对组织是非常有价值的。对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载阅读全文

posted @ 2020-05-19 18:49 leesf 阅读(3046) 评论(0) 推荐(0)

2020年5月10日

真香！PySpark整合Apache Hudi实战

摘要： 1. 准备 Hudi支持Spark 2.x版本，你可以点击如下 "链接" 安装Spark，并使用pyspark启动 spark avro模块需要在 packages显示指定 spark avro和spark的版本必须匹配本示例中，由于依赖spark avro_2.11，因此使用的是scala2.1 阅读全文

posted @ 2020-05-10 16:12 leesf 阅读(1857) 评论(0) 推荐(0)

2020年5月9日

Apache Hudi又双叕被国内顶级云服务提供商集成了！

摘要：是的，最近国内云服务提供商腾讯云在其EMR V2.2.0版本中优先集成了Hudi 0.5.1版本作为其云上的数据湖解决方案对外提供服务 Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语。一般来说，我们会将大量数据存储到 HDFS，新数据增量写入，而旧数据鲜有改动，特阅读全文

posted @ 2020-05-09 13:58 leesf 阅读(2109) 评论(0) 推荐(0)

2020年4月28日

Apache Hudi集成Apache Zeppelin实战

摘要： 1. 简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、阅读全文

posted @ 2020-04-28 09:17 leesf 阅读(1371) 评论(0) 推荐(0)

2020年4月25日

实战 | 将Apache Hudi数据集写入阿里云OSS

摘要： 1. 引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWS EMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。当然国内用户可能更多使用阿里云OSS作为云上存储方案，那么如果用户想基于OSS构建数据湖，那么Hudi 阅读全文

posted @ 2020-04-25 14:58 leesf 阅读(1607) 评论(0) 推荐(0)

2020年4月18日

实战|使用Spark Structured Streaming写入Hudi

摘要： 1. 项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时阅读全文

posted @ 2020-04-18 22:21 leesf 阅读(5340) 评论(0) 推荐(2)

2020年4月16日

Apache Hudi 设计与架构最强解读

摘要：感谢 Apache Hudi contributor：王祥虎翻译&供稿。欢迎关注微信公众号：ApacheHudi 本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。 1.简介 Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两阅读全文

posted @ 2020-04-16 05:34 leesf 阅读(18574) 评论(0) 推荐(4)

掌控之中，才会成功；掌控之外，注定失败。

公告