hudi记录

hudi好文档-hudi-resources

https://github.com/leesf/hudi-resources
【Hudi】数据湖（三）：Hudi概念术语
https://blog.csdn.net/u013522009/article/details/125243952
【Hudi】数据湖Hudi核心概念与架构设计总结

https://blog.csdn.net/u013522009/article/details/123982386
Hudi 原理 | 17张图带你彻底理解 Hudi Upsert 原理
https://toutiao.io/posts/m3mm3hw/preview
开源大数据平台E-MapReduce>组件操作指南>Hudi>常见问题常见问题
https://help.aliyun.com/document_detail/450996.html

hudi
HUDI preCombinedField 总结
https://blog.csdn.net/dkl12/article/details/122309954

hudi
1.3 spark写hudi并启用同步至hive中时：分区的schema信息默认会写到hudi文件中，此时通过spark-sql进行查询可用正常返回，但通过Hive或Presto查询时会移动位置，可用通过hoodie.datasource.write.drop.partition.columns=true配置进行修复同时推荐hoodie.datasource.write.hive_style_partitioning=true。
1.4 优化DLH中默认创建的default catalog增加hive.parquet.use-column-names"="true"属性信息，避免presto读写hudi表时字段移位。
1.5 DLH 执行show create catalog语法错误：在Hive中HiveOperationType缺少对应操作语法的声明导致。
1.6 DLH新建hudi表时默认不会初始化表配置信息，在插入数据时进行初始化，初始化增加一些默认配置如：keygenerator调整为ComplexKeyGenerator支持分区表和非分区表。
1.7 Spark写hudi并启用同步至Hive时，提示某些配置缺失：由于Hudi升级至0.10.1后，其一些hudi表属性信息hoodie.datasource.write.precombine.field、hoodie.datasource.write.table.type、hoodie.datasource.write.recordkey.field等调整到了.hoodie.properties表配置中，同步至DLH时会校验这些字段是否存在；优化为从hudi表的表配置元数据文件中读取。
1.8 Presto查询mor近实时表失败：近实时表没有增量日志文件时，日志文件数组中包含空字符串导致。
1.9 适配Hudi的ctas场景有功能有限，暂不考虑支持：再次插入数据会覆盖初次导入数据，且无法创建分区表，hive也不支持，仅支持建表后查询数据，不支持再对表进行更新。

posted @ 2023-05-28 15:58 平平淡淡以明志阅读(62) 评论(0) 收藏举报

刷新页面返回顶部

bigdata6666

hudi记录

公告