规避dremio数据查询限制的一些方法

dremio 对于查询的数据是有一些限制的,比如数据表字段的内容大小不能超多32k(很多时候我们使用字段存储文本内容的时候就很容易超过)
以下是一些简单的解决方法

32kb 问题

  • 基于视图
    主要是移除数据过大的列
    mongo db 参考方法(需要3.4版本)
 
db.createView(
    "mydemoactiveinfo",         
    "ActivityInfo",             
    [
        { $match: { "ts": { $gte: ISODate("2020-04-13T16:00:00.000Z") } } },
        { $sort: { "ts": -1 } },
        { $project: { _id: 1, activity_title: 1, activity_subhead: 1, online_meeeting: 1, publisher:1} }
    ]
)
 
 

关系数据库可以直接使用create view 解决(大部分关系型数据库都支持视图)
说明:对于数据的处理可以在源数据,同时也可以通过类似pg fdw 或者数据库链接的模式解决

  • 基于etl 工具解决
    移除偏大的不需要分析的列,写入一个数据库中,然后进行查询
    说明:缺点也比较明显,没有了实时关联查询的能力了

mongo 等非关系型数据库schema 不一致问题

没有好的解决方法,核心还是规避不一致的,可以通过数据虚拟层解决(只需要需要的数据),或者清理下有问题的document 字段

excel 文件大小10m问题

可以通过excel->csv 或者json 格式进行解决

说明

其他的一个限制,也可以通过类似拆分i以及转换的模式解决

参考资料

https://docs.dremio.com/advanced-administration/limits.html

posted on   荣锋亮  阅读(297)  评论(0编辑  收藏  举报

编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2020-02-22 docker 几个不错的镜像加速地址
2020-02-22 chproxy 一个功能强大的clickhouse http 代理以及负载均衡中间件
2020-02-22 pgspider kafka fdw docker 镜像
2020-02-22 trickster 反向代理以及时序dashboard 加速中间件
2020-02-22 pgspider clickhouse fdw docker 镜像的几点说明
2020-02-22 pgspider clickhouse fdw 试用
2019-02-22 svelte 构建快速web 应用的工具

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示