dremio 对于parquet 文件的一些要求以及优化处理

dremio 比较依赖parquet 存储格式,同时对于parquet 的处理进行了不少的优化

读parquet 文件

3.1.3 提供了支持非堆内存的操作,3.2 增强了对于云parquet reader 的处理

parquet 的一些限制

  • 多结构嵌套的支持限制到16
  • 数组最大元素个数限制为128
  • 最大footer 限制到16m

推荐的配置

  • row groups , 推荐一个row grouo 一个文件,大多数数据集的目标为 1MB-25MB 列条带(理想情况下),同时dremio 默认partest 大小为256m,store.parquet.block-size 配置,可以修改
  • pages, 页面压缩使用snappy, page size 为100k
  • Statistics,推荐使用最新的包生成,避免问题

说明

以上dremio 关于parquet 的说明以及限制,是值得参考学习的,尤其是希望自己生成parquet 的是比较重要的,否则dremio 对于数据是不能读取的

参考资料

https://www.dremio.com/blog/tuning-parquet/
https://docs.dremio.com/software/data-formats/parquet-files/

posted on   荣锋亮  阅读(119)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-08-03 dremio 创建反射的命令
2020-08-03 systemd 使用rc.local 说明
2018-08-03 nginx brotli 压缩试用

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示