Hudi了解

1.数据库引擎初识

数据引擎大致包含数据结构、存储形式、数据关系、数据更新方式、高效增删改查、日志，围绕这几个方面进行相应权重处理，得到不一样的效果，内容可以整理为如下图：

2.Hudi了解

Hudi提供两种读写方式，一种读时合并，另一种是写时复制，简单的说就是充分利用顺序写，然后加上相关索引等机制，实现快速的批量读写。

Hudi表映射为文件结构如下：

Hoodie文件通过索引机制会记录所有的主键跟文件ID的映射关系，从而提高高效的Upsert，针对写时复制就是当有数据写入时，快速找到数据所属文件块从中找到未修改的数据并复制到内存，然后和修改的数据合并到一起生成新的文件块，最后把新的文件块写回去，这种操作会导致写放大，但是适合分析工作，所以该模式适合读取密集型操作。cow的工作原理图如下:

读时合并使用列式存储（parquet）+行式文件（arvo）存储数据，增量数据会按照arvo写入，每次查询需要查询出增量数据和base文件里面的数据最后合并输出。MOR的工作原理如下：

以下是两种表类型的区别：

posted @ 2023-02-22 09:03 人不疯狂枉一生阅读(431) 评论(0) 收藏举报

刷新页面返回顶部

人不疯狂枉一生

Hudi了解

公告