dremio 对于parquet 文件的一些要求以及优化处理

dremio 比较依赖parquet 存储格式,同时对于parquet 的处理进行了不少的优化

读parquet 文件

3.1.3 提供了支持非堆内存的操作,3.2 增强了对于云parquet reader 的处理

parquet 的一些限制

  • 多结构嵌套的支持限制到16
  • 数组最大元素个数限制为128
  • 最大footer 限制到16m

推荐的配置

  • row groups , 推荐一个row grouo 一个文件,大多数数据集的目标为 1MB-25MB 列条带(理想情况下),同时dremio 默认partest 大小为256m,store.parquet.block-size 配置,可以修改
  • pages, 页面压缩使用snappy, page size 为100k
  • Statistics,推荐使用最新的包生成,避免问题

说明

以上dremio 关于parquet 的说明以及限制,是值得参考学习的,尤其是希望自己生成parquet 的是比较重要的,否则dremio 对于数据是不能读取的

参考资料

https://www.dremio.com/blog/tuning-parquet/
https://docs.dremio.com/software/data-formats/parquet-files/

posted on 2022-08-03 20:58  荣锋亮  阅读(104)  评论(0编辑  收藏  举报

导航