岚天逸见

Hudi写语义保证

Hudi 为 Hadoop Upserts Deletes and Incrementals 的缩写,Incremental 即 Incremental pull,也就是增加拉取,是一种类似于消息队列的流式消费。

单写保证

  • upsert

保证不重复。

  • insert

如果开启了去重(hoodie.datasource.write.insert.drop.duplicates 为 true,默认为 false),保证不重复。

  • bulk_insert

如果开启了去重,保证不重复。

  • 增加拉取(incremental pull)

保证数据的消费和检查点不乱序。

多写保证

  • upsert

保证不重复。

  • insert

即使开启了去重,也保证不重复。

  • bulk_insert

即使开启了去重,也保证不重复。

  • 增加拉取(incremental pull)

数据的消费和检查点可能乱序,由于多个写作业(Job)完成的时间不同。

参考:

Version: 0.13.0
Concurrency Control

posted on   岚天逸见  阅读(31)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
历史上的今天:
2017-05-19 强制DataNode向NameNode上报blocks

导航

统计信息

点击右上角即可分享
微信分享提示