Hudi写语义保证
Hudi 为 Hadoop Upserts Deletes and Incrementals 的缩写,Incremental 即 Incremental pull,也就是增加拉取,是一种类似于消息队列的流式消费。
单写保证
- upsert
保证不重复。
- insert
如果开启了去重(hoodie.datasource.write.insert.drop.duplicates 为 true,默认为 false),保证不重复。
- bulk_insert
如果开启了去重,保证不重复。
- 增加拉取(incremental pull)
保证数据的消费和检查点不乱序。
多写保证
- upsert
保证不重复。
- insert
即使开启了去重,也保证不重复。
- bulk_insert
即使开启了去重,也保证不重复。
- 增加拉取(incremental pull)
数据的消费和检查点可能乱序,由于多个写作业(Job)完成的时间不同。
参考:
Version: 0.13.0
Concurrency Control。