dremio 对于parquet 文件的一些要求以及优化处理
dremio 比较依赖parquet 存储格式,同时对于parquet 的处理进行了不少的优化
读parquet 文件
3.1.3 提供了支持非堆内存的操作,3.2 增强了对于云parquet reader 的处理
parquet 的一些限制
- 多结构嵌套的支持限制到16
- 数组最大元素个数限制为128
- 最大footer 限制到16m
推荐的配置
- row groups , 推荐一个row grouo 一个文件,大多数数据集的目标为 1MB-25MB 列条带(理想情况下),同时dremio 默认partest 大小为256m,store.parquet.block-size 配置,可以修改
- pages, 页面压缩使用snappy, page size 为100k
- Statistics,推荐使用最新的包生成,避免问题
说明
以上dremio 关于parquet 的说明以及限制,是值得参考学习的,尤其是希望自己生成parquet 的是比较重要的,否则dremio 对于数据是不能读取的
参考资料
https://www.dremio.com/blog/tuning-parquet/
https://docs.dremio.com/software/data-formats/parquet-files/
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2021-08-03 dremio 创建反射的命令
2020-08-03 systemd 使用rc.local 说明
2018-08-03 nginx brotli 压缩试用