hudi的bucket.index相关配置
hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。
- 通用配置
配置项名 | 默认值 | 说明 | 引入版本 |
---|---|---|---|
hoodie.index.type | 默认值和引擎有关,Flink上默认值为FLINK_STATE,Spark上默认值为SIMPLE,Java应用的默认值为INMEMORY | 索引类型,可取值:HBASE、INMEMORY、BLOOM、GLOBAL_BLOOM、SIMPLE、GLOBAL_SIMPLE、BUCKET、FLINK_STATE | |
hoodie.index.class | "" | 指定索引类,必须为 HoodieIndex 的子类,自带的有 SparkHoodieHBaseIndex、HoodieBloomIndex、FlinkInMemoryStateIndex、HoodieSimpleBucketIndex、HoodieSparkConsistentBucketIndex |
- BUCKET索引配置
配置项名 | 默认值 | 说明 | 引入版本 |
---|---|---|---|
hoodie.index.bucket.engine | SIMPLE | 用于指定 BUCKET 索引类型 | 0.11.0,可取值 SIMPLE 或 CONSISTENT_HASHING |
hoodie.bucket.index.hash.field | 无默认值 | 用来分桶的字段名,如果没有设置则使用 hoodie.datasource.write.recordkey.field 的值 | |
hoodie.bucket.index.num.buckets | 桶的个数 | ||
hoodie.bucket.index.min.num.buckets | 最小桶数,仅针对一致性哈希BUCKET索引有效 | 0.13.0 | |
hoodie.bucket.index.max.num.buckets | 最大桶数,仅针对一致性哈希BUCKET索引有效 | 0.13.0 | |
hoodie.bucket.index.split.threshold | 2.0 | 控制一致性哈希索引的分裂,如果一个文件大小达到 hoodie.xxxx.max.file.size * threshold 则触发分裂 |
0.13.0 |
hoodie.bucket.index.merge.threshold | 0.2 | 控制一致性哈希索引的合并,如果一个文件大小小于 hoodie.xxxx.max.file.size * threshold 则触发合并 |
0.13.0 |
上表中的 xxxx 可取值:parquet、orc、hfile,相关定义的文件 HoodieStorageConfig.java 中。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义