三种常见的数据库查询引擎执行模型

一、迭代模型/火山模型（Iterator Model）
又称 Volcano Model 或者 Pipeline Model。

Iterator Model
该计算模型将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，查询树自顶向下的调用next()接口，数据则自底向上的被拉取处理。
火山模型的这种处理方式也称为拉取执行模型(Pull Based)。
大多数关系型数据库都是使用迭代模型的，如 SQLite、MongoDB、Impala、DB2、SQLServer、Greenplum、PostgreSQL、Oracle、MySQL 等。
火山模型的优点在于：简单，每个 Operator 可以单独实现逻辑。
火山模型的缺点：查询树调用next()接口次数太多，并且一次只取一条数据，CPU 执行效率低；而 Joins, Subqueries, Order By 等操作经常会阻塞。

二、物化模型（Materialization Model）

Materialization Model
物化模型的处理方式是：每个 operator 一次处理所有的输入，处理完之后将所有结果一次性输出。
物化模型更适合OLTP负载，这些查询每次只访问小规模的数据，只需要少量的函数调用。

三、向量化/批处理模型（Vectorized / Batch Model）

Batch Model
向量化模型和火山模型类似，每个 operator 需要实现一个 next() 函数，但是每次调用 next() 函数会返回一批的元组（tuples），而不是一个元组，所以向量化模型也可称为批处理模型。
向量化模型是火山模型和物化模型的折衷。
向量化模型比较适合 OLAP 查询，因为其大大减少了每个 operator 的调用次数，也就简单减少了虚函数的调用。
Presto、snowflake、SQLServer、Amazon Redshift等数据库支持这种处理模式。
Spark 2.x 的 SQL 引擎开始也支持向量化执行模型。
在 Hive 中使用向量化执行的方式：
1、必须以 ORC 格式来存储数据，
2、将 hive.vectorized.execution.enabled 参数设置为 true

以上为三种常见的数据库查询引擎执行模型，「分布式技术专题」是国产数据库hubble团队精心整编，专题会持续更新，欢迎大家保持关注。
原文链接：https://blog.csdn.net/m0_51698806/article/details/113739682

posted @ 2022-03-09 17:40 Cetus-Y 阅读(1907) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 两种向量化执行引擎思路

· 分布式数据库常用算子介绍

· GaussDB技术解读——查询执行器

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

历史上的今天：
2021-03-09 MySQL-tpcc测试

公告

昵称： Cetus-Y
园龄： 6年6个月
粉丝： 5
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

Cetus-Y

三种常见的数据库查询引擎执行模型

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论