Hudi了解

1.数据库引擎初识

    数据引擎大致包含数据结构、存储形式、数据关系、数据更新方式、高效增删改查、日志,围绕这几个方面进行相应权重处理,得到不一样的效果,内容可以整理为如下图:

 

 

2.Hudi了解

    Hudi提供两种读写方式,一种读时合并,另一种是写时复制,简单的说就是充分利用顺序写,然后加上相关索引等机制,实现快速的批量读写。

    Hudi表映射为文件结构如下:

 

  Hoodie文件通过索引机制会记录所有的主键跟文件ID的映射关系,从而提高高效的Upsert,针对写时复制就是当有数据写入时,快速找到数据所属文件块从中找到未修改的数据并复制到内存,然后和修改的数据合并到一起生成新的文件块,最后把新的文件块写回去,这种操作会导致写放大,但是适合分析工作,所以该模式适合读取密集型操作。cow的工作原理图如下:

 

  读时合并使用列式存储(parquet)+行式文件(arvo)存储数据,增量数据会按照arvo写入,每次查询需要查询出增量数据和base文件里面的数据最后合并输出。MOR的工作原理如下:

 以下是两种表类型的区别:

 

 

 

posted @   人不疯狂枉一生  阅读(394)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
点击右上角即可分享
微信分享提示