apache drill 查询机制 - 荣锋亮 - 博客园

apache drill 查询机制

内容来自 apache drill 学习手册

drill 的组件

drill 客户端，链接到foreman ，提交sql，接受返回的结果
forceman ，一个选择会话管理以及处理查询请求的drill 服务器，drill 的客户端会在drill 集群中随机选择一个driilbit 做为会话的foreman，不同会话会分配给不同的foreman
driilbit 服务器，负责运行实际的查询
zk 服务器，协调drill 集群中的driilbit 服务器

编译查询语句

drill sql 编译阶段的子阶段

解析sql，生成内部解析树
解析树进行语意分析，解析到数据源，字段、函数
sql 解析树转换为逻辑计划（主要的流程图）
逻辑计划转换为物理计划，这一步实施一个基于执行开销的优化，找到最优方案
物理计划转换为执行计划，决定任务如何分配到drill 集群中的drillbit 服务器上

逻辑与物理计划

Major Fragment 书中翻译为了查询阶段，minor Fragment翻译为了查询切片，查询阶段是一个抽象概念，代表查询的一个执行阶段
每个查询阶段可以划分为一个或者多个查询切片，查询切片是真正的执行实体
drill 的所有算子组成了一颗树，根节点是屏幕算子（与drill 客户端交互），叶子节点都是负责吧数据读入drill 的扫描算子，所以每个查询阶段也都是
一颗树
数据会从叶子节点流向中间节点，并最终到达根节点（屏幕算子screen 术语），drill 使用上游表示数据源，也就是执行叶子节点的方向，下游是指
数据的目的地，也就是指向根节点的方向

分发

查询编译的最后一个步骤是把物理计划分发到执行节点，由于每个查询阶段都是单线程执行的，所以drill 是以查询阶段做为最小粒度进行任务分发的

查询语句执行

drill 查询计划分分类

查询计划返回用户（比如explan for）
在集群执行计划
foreman 的职责
等待执行计划（如果开启了准入控制）
查询切片发送到drillbit 去执行
监控执行过程，发现失败的任务
追踪查询切片执行，直到查询执行完成
当查询阶段执行完成后，结束查询，并输出查询分析报告

数据表达

drill 会将多行数据做为一个记录批出炉，每个记录行从几行到65536行，记录批是shuffle 时的最小交换单元，也是drill 客户端返回数据的最小单元
drill 使用了列式存储引擎

网络交换

drill 是基于内存处理的，drill 算子里处理数据所需的内存空间与drill 基于netty 的网络层所使用的内存空间是同一块，当然drill 也是会有shuffle 的尤其是在
如果内存放不下的时候，就需要基于文件处理了

说明

dremio 与apache drill 具有相似性，同时也包含了很大的不同，基于以上介绍，同时在结合dremio 源码学习压力就不会太大了

参考资料

https://drill.apache.org/docs/drill-query-execution/

posted on 2022-03-11 00:26 荣锋亮阅读(301) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· apache drill 提供的physical-operators 以及说明

· dremio 内置的一些默认配置参数

· Apache Druid

· 聊聊分布式 SQL 数据库Doris(五)

· 大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制原创

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2020-03-11 postgresql_anonymizer 方便的数据脱敏扩展
2018-03-11 使用neon 开发nodejs addon
2017-03-11 Spring Cloud feign 服务超时处理

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：荣锋亮
园龄： 11年6个月
粉丝： 153
关注： 0

最新随笔

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

.NET安全揭秘系列博文索引

DB

geohash 学习

graphql

graphql 指南

IE 浏览器

IE 浏览器

IIS

IIS 7 配置模块

IOT

win 10 树莓派 IOT

open xml

REST 设计

REST API 设计模式

sharepoint

sharepoint 配置

sql server CLR

sql server CLR

SSIS 学习

SSIS 学习

UML

UML

vsto

vsto

web

Web service

Calling ASP.NET Webservice using JavaScript on Regular Interval of Time

windows 服务

使用Topshelf创建Windows 服务

插件开发

firebreath 插件开发

复杂事件处理

技术

类库

流量分析

Google Analytics

敏捷

移动

运维

海量运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:dremio 的 telemetry 处理简单说明
@colagy 添加dremio-telemetry.yaml 文件配置支持opentelemetry 的server地址就可以了，比如 tracing: type: opentelemetry se...
--荣锋亮
2. Re:dremio 的 telemetry 处理简单说明
请问怎么配置trace呢
--colagy
3. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮谢谢大佬指教...
--净乐思
4. Re:通过instructor 对于LLM 进行结构化输出
@净乐思你这个就不好说了，你得看你到底pdf 上需要提取啥信息，以及业务中pdf 的特点，pdf 大小等，一个建议是能优先直接提取的（不依赖大模型的，可以优先使用pdf 解析库处理），然后就是实际业...
--荣锋亮
5. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮你好大佬，我是从pdf中进行关键信息提取，基本上提取的数据类型都是string，请问该如何定义输出格式呢。...
--净乐思
6. Re:通过instructor 对于LLM 进行结构化输出
@净乐思看你的数据模式，如果是重复的可以使用列表，如果是多，但是并不是一类的，就写多个，核心还是结合你实际业务场景...
--荣锋亮
7. Re:通过instructor 对于LLM 进行结构化输出
博主你好，需要提取的字段很多，如何在结构化输出类中定义字段呢
--净乐思
8. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮好的非常感谢！...
--maxbread
9. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread 随便填写一个都行，不见得必须时ollama，只要是字符串，这个实际不check 是否正确...
--荣锋亮
10. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮那比如别的项目运行时需要openai api的地方填一个ollma就可以了吗？...
--maxbread
11. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread openai sdk 中随便填就行，ollama 的不check key 信息，就是为了兼容...
--荣锋亮
12. Re:ollama qwen2 运行&openai 兼容api 测试
您好！请问ollma兼容的openai api该怎么使用啊？例如有一个项目需要用到这个api，比如“["OPENAI_API_KEY"] = 'YOUR_OPENAI_API_KEY'”这里要使用的a...
--maxbread
13. Re:Quark 基于electron 的跨平台应用开发ide
quark浏览器以其简洁、高效、安全的特点赢得了广大用户的青睐。通过本文的介绍，相信大家已经对夸克浏览器有了更深入的了解。无论是日常浏览还是专业需求，夸克浏览器都能为用户提供出色的服务体验。赶紧去qu...
--浏览器爱好者
14. Re:openmetadata 构建说明
@hello,linux 你是不是没有不是git clone 的项目，构建是在git repo 中构建的吗...
--荣锋亮
15. Re:openmetadata 构建说明
您好，请问一下源码编译构建过程中，service模块构建出现空指针问题，怎么解决?代码分支为tag 1.4.4 ，我尝试了好几个分支都是出现这个问题，构建环境为 [root@94cd3ca7816a ...
--hello,linux
16. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
使用linux，windows 会有各种问题，而且理论上官方是不支持windows了，我一般构建都是linux 或者mac 系统上
--荣锋亮
17. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
大佬之前有遇到类似的错误吗？win10 maven的jdk按照要求的配置的，或者是要在linux上才能编译吗
--messliao
18. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮感谢...
--messliao
19. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 你项目root 目录，执行mvn clean install -DskipTests 就有了，那两个插件属于项目级的，需要先构建...
--荣锋亮
20. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮少了这两个maven插件...
--messliao
21. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 预计之后官方会提供完整的maven依赖吗？官方已经提供了，我前段时间也说明了，可以直接构建了，这种方法是如果实在没提供，但是希望自己构建的方法...
--荣锋亮
22. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
预计之后官方会提供完整的maven依赖吗？
--messliao
23. Re:graylog MessageOutput 简单说明
@995- 你要导啥用户...
--荣锋亮
24. Re:graylog MessageOutput 简单说明
亮哥，graylog外部账户倒入是怎么处理的？
--995-
25. Re:JFrog Artifactory CE c&&c++ 包管理工具
@踏云我刚试了一些最新版本，看着没啥问题，可能是windows docker 的问题，我使用的是linux 系统这个可以参考下，实在不行找下jfrog 官方的issue...
--荣锋亮
26. Re:JFrog Artifactory CE c&&c++ 包管理工具
你好，请教个事情。【前置处理】：我是在windows上安装的Docker Desktop。【安装部署】：安装你的这条命令 docker run -d -p 8081:8081 docker.b...
--踏云
27. Re:sbom-tool 微软提供sbom工具
哈哈，谢谢你还记得我，npm、java的我都已经解决了，在集成 go和 Python 的时候发现生成的 sbom没有许可证信息，所以准备换sbom-tool试试，看到你这个文章所以想问下你转换后的情况...
--lunzi_fly
28. Re:sbom-tool 微软提供sbom工具
@lunzi_fly 我记得你以前问过，可以参考这个，合适就是把ci/cd 集成好...
--荣锋亮
29. Re:sbom-tool 微软提供sbom工具
请问博主，有试过转换后的 sbom.json使用dependency分析后，组件，漏洞、许可证信息全吗？
--lunzi_fly
30. Re:angie vod_module 模块的问题
点个赞
--995-
31. Re:sbom +dependencytrack 进行软件组件安全性分析
@lunzi_fly 你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不里边已经写了，而且参考资料里边也有工具的资料...
--荣锋亮
32. Re:sbom +dependencytrack 进行软件组件安全性分析
你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不
--lunzi_fly
33. Re:chaos-engineering 的一些开源工具
litmus、chaos blade这些也都开源了，还有个chaos mesh不清楚是否开源
--酒冽
34. Re:streamsets geoip 使用
@荣锋亮我也不太清楚是不是ip库的问题，就是从网上随便下载的一个ip库。您的微信多少，怎么添加您呢...
--一起随缘
35. Re:streamsets geoip 使用
@一起随缘博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢应该是可以到城市的，你看看是不是选择的ip库问题，streamsets现在不开源了，玩的少了，如果还有问题可以微信私聊...
--荣锋亮
36. Re:streamsets geoip 使用
博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢
--一起随缘
37. Re:cups+ippserver+cups4j 进行ipp 打印测试
而且这个也有可能是cups server字符编码配置有问题，可以尝试修改下cupsd.conf
--荣锋亮
38. Re:cups+ippserver+cups4j 进行ipp 打印测试
@李秀才后边没测了，周边没打印机，当时是临时在一个环境测试的，当时怀疑可能是client 包装处理的问题，你使用什么类型的打印机，还有有没有进行调试下，或者你可以跟下cups client看看它内部...
--荣锋亮
39. Re:cups+ippserver+cups4j 进行ipp 打印测试
兄弟，你后面打印中文乱码的问题解决了吗？我也碰到这个问题了。
--李秀才
40. Re:kestra 试用体验
感谢分享，看起来有点意思
--早呀早