随笔- 930 文章- 0 评论- 98 阅读- 335万

随笔分类 - Hudi

摘要：一、背景一个需求，需要同步MySQL数据到Hive，包括DDL与DML，所以需要动态同步元数据变化。二、官方Schema Evolution例子从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文

posted @ 2022-09-29 10:33 大数据从业者FelixZh 阅读(1170) 评论(0) 推荐(0) 编辑

Apache Hudi的索引类型及应用场景

摘要：Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表，索引能加快更删的操作，因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表，这个设计，对于任意给定的基文件，能限定要与其合并的记录数量。具体地，一个给定的基文件只需要和其所包含阅读全文

posted @ 2022-04-09 10:05 大数据从业者FelixZh 阅读(1309) 评论(0) 推荐(0) 编辑

Apache Hudi核心概念一网打尽

摘要：1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入减少碎片化工具的使用 CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ，节省资源提供分钟级别时效性，支撑更高效阅读全文

posted @ 2022-04-08 14:46 大数据从业者FelixZh 阅读(412) 评论(0) 推荐(0) 编辑

Bloom Filter在Hudi中的应用

摘要：介绍 Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，主要缺点是存在一定的误判率：当其判断元素存在时，实际上元素可能并不存在。而当判定不存在时，则元素一定不存在，Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛阅读全文

posted @ 2022-04-08 11:17 大数据从业者FelixZh 阅读(197) 评论(0) 推荐(0) 编辑

实战案例：Sql client使用sql操作FlinkCDC2Hudi、支持从savepoint恢复hudi作业

摘要：Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下：在上述第二步中，我们通过手工停止kafka→hudi的阅读全文

posted @ 2022-04-06 09:41 大数据从业者FelixZh 阅读(1245) 评论(2) 推荐(0) 编辑

Hudi on flink v0.7.0 使用遇到的问题及解决办法

摘要：近日，Hudi社区合并了 Flink 引擎的基础实现（HUDI-1327），这意味着 Hudi 开始支持 Flink 引擎。当前 Flink 版本的 Hudi 只支持读取 Kafka 数据，sink到 COW 类型的 Hudi 表中，其他功能还在完善。这里我们简要介绍下如何从 Kafka 读取数阅读全文

posted @ 2021-03-04 10:20 大数据从业者FelixZh 阅读(3110) 评论(0) 推荐(0) 编辑

公告

昵称：大数据从业者FelixZh
园龄： 10年6个月
粉丝： 777
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

大数据从业者

最新文章，见微信公众号：大数据从业者

随笔分类 - Hudi

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (996)

阅读排行榜

评论排行榜

推荐排行榜

最新评论