岚天逸见

hudi的bucket.index相关配置

hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java

  • 通用配置
配置项名 默认值 说明 引入版本
hoodie.index.type 默认值和引擎有关,Flink上默认值为FLINK_STATE,Spark上默认值为SIMPLE,Java应用的默认值为INMEMORY 索引类型,可取值:HBASE、INMEMORY、BLOOM、GLOBAL_BLOOM、SIMPLE、GLOBAL_SIMPLE、BUCKET、FLINK_STATE
hoodie.index.class "" 指定索引类,必须为 HoodieIndex 的子类,自带的有 SparkHoodieHBaseIndex、HoodieBloomIndex、FlinkInMemoryStateIndex、HoodieSimpleBucketIndex、HoodieSparkConsistentBucketIndex
  • BUCKET索引配置
配置项名 默认值 说明 引入版本
hoodie.index.bucket.engine SIMPLE 用于指定 BUCKET 索引类型 0.11.0,可取值 SIMPLE 或 CONSISTENT_HASHING
hoodie.bucket.index.hash.field 无默认值 用来分桶的字段名,如果没有设置则使用 hoodie.datasource.write.recordkey.field 的值
hoodie.bucket.index.num.buckets 桶的个数
hoodie.bucket.index.min.num.buckets 最小桶数,仅针对一致性哈希BUCKET索引有效 0.13.0
hoodie.bucket.index.max.num.buckets 最大桶数,仅针对一致性哈希BUCKET索引有效 0.13.0
hoodie.bucket.index.split.threshold 2.0 控制一致性哈希索引的分裂,如果一个文件大小达到 hoodie.xxxx.max.file.size * threshold 则触发分裂 0.13.0
hoodie.bucket.index.merge.threshold 0.2 控制一致性哈希索引的合并,如果一个文件大小小于 hoodie.xxxx.max.file.size * threshold 则触发合并 0.13.0

上表中的 xxxx 可取值:parquet、orc、hfile,相关定义的文件 HoodieStorageConfig.java 中。

posted on   岚天逸见  阅读(216)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义

导航

统计信息

点击右上角即可分享
微信分享提示