蓝天

Hudi写语义保证

Hudi 为 Hadoop Upserts Deletes and Incrementals 的缩写,Incremental 即 Incremental pull,也就是增加拉取,是一种类似于消息队列的流式消费。

单写保证

  • upsert

保证不重复。

  • insert

如果开启了去重(hoodie.datasource.write.insert.drop.duplicates 为 true,默认为 false),保证不重复。

  • bulk_insert

如果开启了去重,保证不重复。

  • 增加拉取(incremental pull)

保证数据的消费和检查点不乱序。

多写保证

  • upsert

保证不重复。

  • insert

即使开启了去重,也保证不重复。

  • bulk_insert

即使开启了去重,也保证不重复。

  • 增加拉取(incremental pull)

数据的消费和检查点可能乱序,由于多个写作业(Job)完成的时间不同。

参考:

Version: 0.13.0
Concurrency Control

posted on 2023-05-19 09:32  #蓝天  阅读(29)  评论(0编辑  收藏  举报

导航