hudi记录
hudi好文档-hudi-resources
https://github.com/leesf/hudi-resources
【Hudi】数据湖(三):Hudi概念术语
https://blog.csdn.net/u013522009/article/details/125243952
【Hudi】数据湖Hudi核心概念与架构设计总结
https://blog.csdn.net/u013522009/article/details/123982386
Hudi 原理 | 17张图带你彻底理解 Hudi Upsert 原理
https://toutiao.io/posts/m3mm3hw/preview
开源大数据平台E-MapReduce>组件操作指南>Hudi>常见问题常见问题
https://help.aliyun.com/document_detail/450996.html
hudi
HUDI preCombinedField 总结
https://blog.csdn.net/dkl12/article/details/122309954
hudi
1.3 spark写hudi并启用同步至hive中时:分区的schema信息默认会写到hudi文件中,此时通过spark-sql进行查询可用正常返回,但通过Hive或Presto查询时会移动位置,可用通过hoodie.datasource.write.drop.partition.columns=true配置进行修复同时推荐hoodie.datasource.write.hive_style_partitioning=true。
1.4 优化DLH中默认创建的default catalog增加hive.parquet.use-column-names"="true"属性信息,避免presto读写hudi表时字段移位。
1.5 DLH 执行show create catalog语法错误:在Hive中HiveOperationType缺少对应操作语法的声明导致。
1.6 DLH新建hudi表时默认不会初始化表配置信息,在插入数据时进行初始化,初始化增加一些默认配置如:keygenerator调整为ComplexKeyGenerator支持分区表和非分区表。
1.7 Spark写hudi并启用同步至Hive时,提示某些配置缺失:由于Hudi升级至0.10.1后,其一些hudi表属性信息hoodie.datasource.write.precombine.field、hoodie.datasource.write.table.type、hoodie.datasource.write.recordkey.field等调整到了.hoodie.properties表配置中,同步至DLH时会校验这些字段是否存在;优化为从hudi表的表配置元数据文件中读取。
1.8 Presto查询mor近实时表失败:近实时表没有增量日志文件时,日志文件数组中包含空字符串导致。
1.9 适配Hudi的ctas场景有功能有限,暂不考虑支持:再次插入数据会覆盖初次导入数据,且无法创建分区表,hive也不支持,仅支持建表后查询数据,不支持再对表进行更新。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义