2022年2月24日

Hudi-核心概念(时间轴、文件管理、索引)

摘要: 总述 hudi提供了hudi表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询 hudi表的三个主要组件 a.有序的时间轴元数据,类似于数据库事务日志 b.分层布局的数据文件:实际写入表中的数据 c.索引 阅读全文

posted @ 2022-02-24 22:20 嘣嘣嚓 阅读(923) 评论(0) 推荐(0) 编辑

通过Spark操作Hudi(增、删、改、查、增量查)

摘要: 一、概览 Hudi数据湖框架,基于spark计算引擎,对数据进行CRUD操作,使用官方模拟生成出租车出行数据 任务一:模拟数据,插入Hudi表,采用COW模式 任务二:快照方式查询(Snapshot Query),采用DSL方式 任务三:更新(update)数据 任务四:增量查询数据(Increme 阅读全文

posted @ 2022-02-24 21:35 嘣嘣嚓 阅读(3014) 评论(0) 推荐(1) 编辑

导航