想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？

合集 - 数据库最新分享(87)

1.华为云峰会2024，GaussDB扬帆出海，给世界一个更优选择2024-02-28 2.预算有限，资源冗余？DWS集群缩容如何帮你解决烦劳2024-02-29 3.数智融合，华为云GaussDB(for MySQL)助力企业释放数据新价值2024-03-01 4.RDS for MySQL Serverless公测上线：弹性伸缩，最高可降成本超80%2024-03-04 5.GaussDB跨云容灾：实现跨地域的数据库高可用能力2024-03-05 6.实例详解如何构建动态SQL语句2024-03-05 7.GaussDB(DWS)运维利刃：TopSQL工具解析2024-03-07 8.手把手带你认识GaussDB轻量化运维管理工具2024-03-08 9.守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移2024-03-08 10.GaussDB(DWS)集群通信：详解pooler连接池2024-03-11 11.Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招2024-03-12 12.实例带你了解GaussDB数据库的LOCK TABLE2024-03-12 13.RDS for MariaDB“智能DBA助手”，让运维效率嗖嗖地！2024-03-12 14.实例带你了解GaussDB的索引管理2024-03-14 15.详解GaussDB(DWS)中3个防过载检查项2024-03-18 16.华为云数据库创新发展论坛，打造行业更优数据库底座！2024-03-19 17.GaussDB(分布式)实例故障处理2024-03-19 18.华为云GeminiDB新版本发布：全面支持Redis 6.22024-03-20 19.究竟什么样的数据库，才能承接RTA广告这个技术活！2024-03-20 20.GaussDB(DWS) 业务高可靠的三大利器：CN RETRY、远程读、ELB2024-03-25 21.走在前、做示范，苏州农商银行携华为云完成超级网银系统改造2024-03-25 22.分布式数据库技术的演进和发展方向2024-03-26 23.新版Redis不再“开源”，对使用者都有哪些影响？2024-03-27 24.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置2024-03-29 25.GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回2024-04-01 26.探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析2024-04-01 27.详解数仓对象设计中序列SEQUENCE原理与应用2024-04-02 28.数仓调优实战：GUC参数调优2024-04-07 29.详讲openGauss 5.0 单点企业版如何部署_Centos7_x862024-04-08 30.华为云GeminiDB，广告RTA的“登云梯”2024-04-09 31.DTC2024，华为云数据库创新融合大发展，打造世界级数据库！2024-04-17 32.GaussDB(DWS)基于Flink的实时数仓构建2024-04-18 33.数仓的两种轻量级数据交换格式：json与jsonb2024-04-19 34.重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验2024-04-23 35.“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！2024-04-24 36.GaussDB SQL查询语句执行过程解析2024-04-24 37.详解数仓的向量化执行引擎2024-04-25 38.Redis开源社区持续壮大，华为云为Valkey项目注入新的活力2024-05-06 39.详解数仓的3A安全能力2024-05-07 40.【GaussDB(for MySQL)】 Big IN查询优化2024-05-09 41.GaussDB细粒度资源管控技术透视2024-05-09 42.带你了解GaussDB SQL中的BOOLEAN表达式2024-05-10 43.数仓安全：数据脱敏技术深度解析2024-05-10 44.详解GaussDB(DWS)中的行执行引擎2024-05-11 45.了解GaussDB SQL中CASE表达式2024-05-13 46.JDBC连接openGauss6.0和PostgreSQL16.2性能对比2024-05-14 47.MySQL 给用户添加 ALTER VIEW 的权限2024-05-15 48.MySQL全文索引源码剖析之Insert语句执行过程2024-05-20 49.全球厂商之最，华为17篇论文入选国际数据库顶会ICDE2024-05-22 50.GeminiDB PITR，让游戏回档“进退自如”！2024-05-24 51.浅析MySQL 8.0直方图原理2024-05-27 52.LLVM技术在GaussDB等数据库中的应用2024-06-03 53.告别内存OOM，解决MySQL内存增长问题2024-06-04 54.从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践2024-06-04 55.深度体验与测评openGauss 6.0.0新版本2024-06-11 56.深度解读数据库引入LLVM技术后如何提升性能2024-06-12 57.从Purge机制说起，详解GaussDB(for MySQL)的优化策略2024-06-17 58.攀登不止，华为数据库论文入选SIGMOD 2024，技术创新再谱新篇2024-06-18 59.技术解读数据库如何实现“多租户”？2024-06-20 60.解读MySQL 8.0数据字典的初始化与启动2024-06-24 61.GeminiDB全面联动MySQL：热点数据，一键加速2024-06-26 62.探秘数据库中的并行计算技术应用2024-07-01 63.硬核解读，WeTune是如何提升数据库查询重写性能？2024-07-04 64.开源数据库Greenplu突然闭源？GaussDB(DWS)提供数仓新可能2024-07-08 65.数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决2024-07-10 66.MySQL派生表合并优化的原理和实现2024-07-11 67.华为云发起，openGemini正式成为CNCF官方项目！2024-07-11 68.MySQL中为什么要使用索引合并(Index Merge)？2024-07-12 69.解读MySQL 8.0数据字典缓存管理机制2024-07-16 70.解读GaussDB(for MySQL)灵活多维的二级分区表策略2024-07-19 71.深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略2024-07-25 72.一图为你揭秘云数据库GaussDB管理平台亮点2024-10-17 73.深度解读GaussDB逻辑解码技术原理2024-10-28 74.深度解读RDS for MySQL 审计日志功能和原理2024-10-29 75.遇到慢查询怎么办？一文解读MySQL 8.0查询分析工具2024-10-31 76.从源码分析，MySQL优化器如何估算SQL语句的访问行数2024-11-11 77.一文带你搞懂GaussDB数据库性能调优2024-11-18 78.揭秘UGO SQL审核功能4大特性，让业务平滑迁移至GaussDB2024-12-02 79.了解GaussDB性能调优之隐式转换，解决慢SQL问题2024-12-10 80.全面解读TaurusDB透明压缩特性，降低数据库使用成本2024-12-11 81.解读GaussDB的BTree索引和UBTree索引，如何带来更强并发能力2024-12-13

82.想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？2024-12-13

83.详解GaussDB(DWS)逻辑集群，如何化解大规模业务数据管理难题2024-12-17 84.TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间2024-12-18 85.拦截烂SQL，解读GaussDB(DWS)查询过滤器过滤规则原理2024-12-20 86.开源for Huawei，Beam适配GaussDB实践案例分享2024-12-24 87.优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze2024-12-25

本文分享自华为云社区《GaussDB(DWS) in表达式还是or表达式》，作者：一只小兵。

前言

适用版本：【9.1.0（及以上）】

声明式查询语言（如 SQL）的最初想法是，用户直接要求数据库管理系统 (DBMS) 给出其想要的答案，而无需考虑其计算方式与计算过程。DBMS的查询优化器负责确定查询的最高效执行计划。理想情况下，如果您使用不同的 SQL 命令提出相同的问题，DBMS应该选择相同的最佳计划。遗憾的是，实际情况并非总是如此，查询性能通常取决于用户编写查询的方式。有时对SQL 进行简单的改写即能得到显著的性能提升。

在WHERE语句中使用IN和OR运算符对查询的结果做过滤是上述问题的代表场景之一，如下面的查询语句范例，它们产生的查询结果是一致的，但执行的时间可能不同：

在本文中，我将重点分析在各种通用场景下，IN 运算符和 OR 运算符查询的性能差异，并探索这些性能差异背后的原因，目的是为了帮助DWS用户最大化的提升其查询性能。

TL;DR: IN运算符在部分场景性能远优于OR运算符，在其他场景下两种运算符性能基本一致。本文推荐在查询中尽量使用IN运算符，对于具有大量谓词的查询尤其如此。

实验数据准备

声明：本文重点比较IN运算符与OR运算符的执行性能差异，差异比例可做参考，查询的绝对执行时间则无参考价值。

-- 建表, DWS列存，hstore_opt表，并声明id列为primary key。
CREATE TABLE item(
    id         INTEGER NOT NULL,
    name        VARCHAR(30),
    price       INTEGER,
    quantity     INTEGER,
    primary key (id)
)
WITH (orientation=COLUMN, enable_hstore_opt=TRUE);

-- 随机插入两百万行数据。
INSERT INTO item
SELECT id,
    SUBSTR(MD5(RANDOM()::text), 0, 20) AS name,
    (RANDOM() * 10000)::int AS price,
    (RANDOM() * 10000)::int AS quantity
FROM generate_series(1, 2000000) AS t(id);
 
-- Merge all data from hstore delta table info CU.
select hstore_full_merge('item');

本实验使用Hstore OPT列存表，开启Turbo执行引擎。由于Hstore Opt表在单行数据插入时，会先插入delta表，并异步写成CU中。本文为了去除查询delta表对实验数据的影响，手动执行一次merge，保证所有delta表中数据都已写入CU。

单一属性过滤

我们首先比较使用单一列过滤的性能差异，大部分复制查询的内部都包含对单一列进行过滤的场景。

单个索引属性

首先，当单一属性上声明了索引，我们检验在WHERE 子句中使用单个 IN 运算符和使用多个 OR 子句运行相同的查找的性能差异。上诉语句声明中，id列声明为唯一列，DWS会自动为此列创建索引，我们使用此列进行下列的实验。我们首先运行IN语句，然后运行OR语句，并不断的增加条件中需要查找的ID个数。

-- IN expression
SELECT * FROM item WHERE id IN (...);
-- OR expression
SELECT * FROM item WHERE id = ? OR id = ? OR ... ;

下图显示了性能数据对比。理论上，两个查询在同一张表上计算相同的结果，优化器应该总能能选出最优的执行方式，从而上述个查询执行的时间应该相同。然而，当过滤条件较少时，两种表达式的执行时间相差不大。而随着过滤条件的个数增加，IN运算符的执行速度远快于OR运算符。当过滤条件个数为1000时，IN运算符比OR运算符快了10倍（48ms vs 501ms)。

为了理解出现这种情况的原因，让我们来看一下上面两种运算符分别对应的执行计划的差异:

postgres=# explain SELECT * FROM item where id in (1559267,311557,234010,1863199,876092,580136,1116400,575622,380796,1518233);
 
                                                         QUERY PLAN                                                      
-----------------------------------------------------------------------------------------------------------------------------
  id |                operation                 | E-rows | E-memory | E-width | E-costs 
 ----+------------------------------------------+--------+----------+---------+---------
   1 | ->  Row Adapter                          |     10 |          |      43 | 63.79   
   2 |    ->  Vector Streaming (type: GATHER)   |     10 |          |      43 | 63.79   
   3 |       ->  CStore Index Heap Scan on item |     10 | 16MB     |      43 | 57.79   
   4 |          ->  CStore Index Ctid Scan      |     10 | 1MB      |       0 | 38.12   
 
                                        Predicate Information (identified by plan id)                                   
 
 ---------------------------------------------------------------------------------------------------------------------------
   3 --CStore Index Heap Scan on item
         Recheck Cond: (id = ANY ('{1559267,311557,234010,1863199,876092,580136,1116400,575622,380796,1518233}'::integer[]))
   4 --CStore Index Ctid Scan
         Index Cond: (id = ANY ('{1559267,311557,234010,1863199,876092,580136,1116400,575622,380796,1518233}'::integer[]))
 
 
postgres=# explain SELECT * FROM item WHERE id = 1559267 OR id = 311557 OR id = 234010 OR id = 1863199 OR id = 876092 OR id = 580136 OR id = 1116400 OR id = 575622 OR id = 380796 OR id = 1518233;
 
                                                                                             QUERY PLAN                                                                                         
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
  id |                            operation                            | E-rows | E-memory | E-width | E-costs 
 ----+-----------------------------------------------------------------+--------+----------+---------+---------
   1 | ->  Row Adapter                                                 |     10 |          |      43 | 61.99   
   2 |    ->  Vector Streaming (type: GATHER)                          |     10 |          |      43 | 61.99   
   3 |       ->  CStore Index Heap Scan on item                        |     10 | 16MB     |      43 | 55.99   
   4 |          ->  CStore Index Or(5, 6, 7, 8, 9, 10, 11, 12, 13, 14) |     10 | 1MB      |       0 | 36.25   
   5 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
   6 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
   7 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
   8 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
   9 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
  10 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
  11 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
  12 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
  13 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
  14 |             ->  CStore Index Ctid Scan                          |      1 | 1MB      |       0 | 3.62  
 
                                                                           Predicate Information (identified by plan id)                                                                       
 
 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 
   3 --CStore Index Heap Scan on item
         Recheck Cond: ((id = 1559267) OR (id = 311557) OR (id = 234010) OR (id = 1863199) OR (id = 876092) OR (id = 580136) OR (id = 1116400) OR (id = 575622) OR (id = 380796) OR (id = 1518233))
   5 --CStore Index Ctid Scan
         Index Cond: (id = 1559267)
   6 --CStore Index Ctid Scan
         Index Cond: (id = 311557)
   7 --CStore Index Ctid Scan
         Index Cond: (id = 234010)
   8 --CStore Index Ctid Scan
         Index Cond: (id = 1863199)
   9 --CStore Index Ctid Scan
         Index Cond: (id = 876092)
  10 --CStore Index Ctid Scan
         Index Cond: (id = 580136)
  11 --CStore Index Ctid Scan
         Index Cond: (id = 1116400)
  12 --CStore Index Ctid Scan
         Index Cond: (id = 575622)
  13 --CStore Index Ctid Scan
         Index Cond: (id = 380796)
  14 --CStore Index Ctid Scan
         Index Cond: (id = 1518233)

IN运算符首先进行Index Ctid Scan扫描主键索引以获取满足条件的行ctid，索引过滤的条件为IN条件。获取到所有满足的Ctid后，进行Index Heap Scan查询原表，获取并返回所有用户所需列。

OR运算符也是首先进行Index Ctid Scan扫描主键索引表，但索引的过滤条件为单个谓词，每个OR条件都需要执行一次查找。查找完成后进行Index OR汇总，最后也是进行Index Heap Scan查询原表。

OR运算符性能较差的原因在于需要为每个谓词做一次索引扫描并建立一个位图，即id = 1 为一个位图，id = 2 为一个位图等等。随后进行按位或组合这些位图。在谓词个数为1000时，需要进行1000次索引扫描并生成1000个位图，与只进行一此索引扫描的IN运算符相比，效率大大降低。并且随着谓词个数的增加，性能差别会逐步拉大。

单个未索引属性

接下来，我们基于单个未索引属性（price）进行相同的比较：一个使用单个 IN 子句，另一个使用多个带有相等谓词的 OR 子句。然后，我们增加每个查询的谓词个数。

-- IN expression
SELECT * FROM item WHERE price IN (...); 
-- OR expression
SELECT * FROM item WHERE price = ? OR price = ? OR ... ;

下图显示了性能数据对比。IN表达式的性能依旧优于OR表达式，并且性能差距相比索引属性更大。在谓词个数为1000时，性能差别达到了40倍（150ms vs 6399ms）。

让我们依旧通过生成的执行计划来看差异的原因：

postgres=# explain SELECT * FROM item where price in (1988,5547,6631,4931,5752,2119,9647,3724,5146,873);
                                                                                                                           QUERY PLAN                                                                                            
                        
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
----------------------------
  id |               operation                | E-rows | E-memory | E-width | E-costs 
 ----+----------------------------------------+--------+----------+---------+----------
   1 | ->  Row Adapter                        |   1921 |          |      43 | 19105.85 
   2 |    ->  Vector Streaming (type: GATHER) |   1921 |          |      43 | 19105.85 
   3 |       ->  CStore Scan on item          |   1921 | 1MB      |      43 | 19015.85 

                                                                                                          Predicate Information (identified by plan id)                                                                          
                       
 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
---------------------------

   3 --CStore Scan on item
         CU Predicate Filter: (price = ANY ('{1988,5547,6631,4931,5752,2119,9647,3724,5146,873}'::integer[]))
         Pushdown Predicate Filter: (((price >= 873) AND (price <= 9647)) AND ((price = 1988) OR (price = 5547) OR (price = 6631) OR (price = 4931) OR (price = 5752) OR (price = 2119) OR (price = 9647) OR (price = 3724) OR (price
 = 5146) OR (price = 873)))
 
 
postgres=# explain SELECT * FROM item where price = 1988  OR price =  5547  OR price =  6631  OR price =  4931  OR price =  5752  OR price =  2119  OR price =  9647  OR price =  3724  OR price =  5146  OR price =  873;
 
                                                                                                      QUERY PLAN                                                                                                  
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
  id |               operation                | E-rows | E-memory | E-width | E-costs 
 ----+----------------------------------------+--------+----------+---------+----------
   1 | ->  Row Adapter                        |   1921 |          |      43 | 31356.73 
   2 |    ->  Vector Streaming (type: GATHER) |   1921 |          |      43 | 31356.73 
   3 |       ->  CStore Scan on item          |   1921 | 1MB      |      43 | 31266.73 
 
                                                                                    Predicate Information (identified by plan id)                                                                                
 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
   3 --CStore Scan on item
         Filter: ((price = 1988) OR (price = 5547) OR (price = 6631) OR (price = 4931) OR (price = 5752) OR (price = 2119) OR (price = 9647) OR (price = 3724) OR (price = 5146) OR (price = 873))
         Pushdown Predicate Filter: ((price = 1988) OR (price = 5547) OR (price = 6631) OR (price = 4931) OR (price = 5752) OR (price = 2119) OR (price = 9647) OR (price = 3724) OR (price = 5146) OR (price = 873))

从计划上来看，IN运算符与OR运算符的执行算子一致，唯一不同的是Predicate Information。IN运算符生成的是CU Predicate Filter， OR运算符生成的是Filter。

CU Predicate Filter意味着此过滤条件下推到了存储层过滤，这样的做法可以减少了性能消耗。原因在于其直接在读CU（DWS列存表单列数据的基本存储单位）的时候就将不必要的数据过滤掉，而无需将其先填入Batch（DWS执行引擎中单列数据的基本存储单位）中，然后在执行器中进行过滤。

除此以外，可以看到IN运算符的过滤条件为ANY，而OR运算符的过滤条件为OR。当起ANY条件下推到存储层时，存储层会生成一个临时的哈希表，并将条件中的谓词都存入哈希表中。相比多个OR条件，在进行过滤时，只需进行一次哈希比较，而无需逐个谓词比较，算法复杂度由O(N）变成了O(1)，大大的提升了执行性能。

需要注意的是，截止到本文撰写的时间，只有部分场景的IN运算符支持下推到存储层。让我们来看一下当不支持下推到存储层时，执行层执行IN运算符的性能如何。

为了方便起见，这里不特意构造不下推的语句了，而是简单的通过设置GUC参数enable_cu_predicate_pushdown来关闭存储层下推：

postgres=# set enable_cu_predicate_pushdown = off;
SET

以下是性能数据比较：

可以看到，虽然IN + 执行层运算相比IN直接下推到存储层运行的性能较差，但相差不远。及时没有下推到存储层，IN运算符的性能相比OR运算符依旧有较大的提升。

让我们来分析一下是IN运算符在执行层的执行的计划：

postgres=# explain SELECT * FROM item where price in (1988,5547,6631,4931,5752,2119,9647,3724,5146,873);
 
                                                                                                                           QUERY PLAN                                                                                            
                        
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
----------------------------
  id |               operation                | E-rows | E-memory | E-width | E-costs  
 ----+----------------------------------------+--------+----------+---------+----------
   1 | ->  Row Adapter                        |   1921 |          |      43 | 19105.85 
   2 |    ->  Vector Streaming (type: GATHER) |   1921 |          |      43 | 19105.85 
   3 |       ->  CStore Scan on item          |   1921 | 1MB      |      43 | 19015.85
                                                                                                          Predicate Information (identified by plan id)                                                                          
                       
 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
---------------------------
   3 --CStore Scan on item
         Filter: (price = ANY ('{1988,5547,6631,4931,5752,2119,9647,3724,5146,873}'::integer[]))
         Pushdown Predicate Filter: (((price >= 873) AND (price <= 9647)) AND ((price = 1988) OR (price = 5547) OR (price = 6631) OR (price = 4931) OR (price = 5752) OR (price = 2119) OR (price = 9647) OR (price = 3724) OR (price
 = 5146) OR (price = 873)))

可以看到，其生成的Predicate Information 与OR条件同样为“Filter”。表示其未下推到存储层执行过滤。但是在执行层，DWS依旧会为IN运行符生成临时哈希表，将O(N)的算法复杂度优化到O(1)。所以其性能依旧远远好于OR表达式，且随着谓词个数增多，性能优势越明显。

多属性过滤

接下来，我们评估在两个属性列上分布使用IN运算符与OR运算符进行过滤的差异。首先，我们评估当两个属性都是/不是索引列的情况，然后我们评估两个属性中只有一个属性是/不是索引列的情况。

TL;DR: 在多属性场景下，DWS为IN查询与OR查询生成的计划是相同的，故他们的执行性能一致。在此等场景下，使用IN运算符与OR运算符并无差别。

两个索引属性

首先基于两个属性（name、price）创建一个复合索引(idx_item_name_quantity)：

postgres=# create index idx_item_name_quantity on item (name, quantity);
CREATE INDEX

使用复合索引中两个属性（name、price）过滤的查询如下：

SELECT * FROM item WHERE (name, quantity) IN (('a', 1), ('b', 2));
 
SELECT * FROM item WHERE (name='a' AND quantity=1) OR (name='b' AND quantity=2)

执行计划如下：

postgres=# explain SELECT * FROM item WHERE (name, quantity) IN (('a', 1), ('b', 2));
 
                                                         QUERY PLAN                                                     
----------------------------------------------------------------------------------------------------------------------------
  id |                operation                 | E-rows | E-memory | E-width | E-costs
 ----+------------------------------------------+--------+----------+---------+---------
   1 | ->  Row Adapter                          |      2 |          |      43 | 17.24   
   2 |    ->  Vector Streaming (type: GATHER)   |      2 |          |      43 | 17.24   
   3 |       ->  CStore Index Heap Scan on item |      2 | 16MB     |      43 | 11.24   
   4 |          ->  CStore Index Or(5, 6)       |      2 | 1MB      |       0 | 7.22
   5 |             ->  CStore Index Ctid Scan   |      1 | 1MB      |       0 | 3.61 
   6 |             ->  CStore Index Ctid Scan   |      1 | 1MB      |       0 | 3.61 
 
                                       Predicate Information (identified by plan id)                                   
 
 --------------------------------------------------------------------------------------------------------------------------
   3 --CStore Index Heap Scan on item
         Recheck Cond: ((((name)::text = 'a'::text) AND (quantity = 1)) OR (((name)::text = 'b'::text) AND (quantity = 2)))
   5 --CStore Index Ctid Scan
         Index Cond: (((name)::text = 'a'::text) AND (quantity = 1))
   6 --CStore Index Ctid Scan
         Index Cond: (((name)::text = 'b'::text) AND (quantity = 2))

OR运算符与IN运算符的执行计划一模一样，可以知道他们的执行性能将一致，这里就进行性能数据比较了。

从上述计划可以看到，DWS优化器先将IN语句转换为OR语句，然后针对语句中的每个谓词条件，执行一次索引扫描获取对应的Ctid，并生成位图，然后进行位图OR运行合并，最后进行原表扫描获取所有的查询列。

两个未索引属性

首先将上述创建的索引删除：

postgres=# drop index idx_item_name_quantity;
DROP INDEX

基于两个未索引属性的查询如下：

SELECT * FROM item WHERE (name, quantity) IN (('a', 1), ('b', 2));
 
SELECT * FROM item WHERE (name='a' AND quantity=1) OR (name='b' AND quantity=2)

IN语句与OR语句的执行计划也是一致的：

postgres=# explain SELECT * FROM item WHERE (name, quantity) IN (('a', 1), ('b', 2));
 
                                                               QUERY PLAN                                                            
 
-----------------------------------------------------------------------------------------------------------------------------------------
 
  id |               operation                | E-rows | E-memory | E-width | E-costs 
 ----+----------------------------------------+--------+----------+---------+----------
   1 | ->  Row Adapter                        |      2 |          |      43 | 16564.78 
   2 |    ->  Vector Streaming (type: GATHER) |      2 |          |      43 | 16564.78 
   3 |       ->  CStore Scan on item          |      2 | 1MB      |      43 | 16558.78 
 
                                              Predicate Information (identified by plan id)                                         
 ---------------------------------------------------------------------------------------------------------------------------------------
   3 --CStore Scan on item
         Filter: ((((name)::text = 'a'::text) AND (quantity = 1)) OR (((name)::text = 'b'::text) AND (quantity = 2)))
         Pushdown Predicate Filter: ((((name)::text = 'a'::text) AND (quantity = 1)) OR (((name)::text = 'b'::text) AND (quantity = 2)))
 
 
postgres=# explain SELECT * FROM item WHERE (name='a' AND quantity=1) OR (name='b' AND quantity=2)

                                                               QUERY PLAN                                                            
 
-----------------------------------------------------------------------------------------------------------------------------------------
 
  id |               operation                | E-rows | E-memory | E-width | E-costs
 ----+----------------------------------------+--------+----------+---------+----------
   1 | ->  Row Adapter                        |      2 |          |      43 | 16564.78
   2 |    ->  Vector Streaming (type: GATHER) |      2 |          |      43 | 16564.78 
   3 |       ->  CStore Scan on item          |      2 | 1MB      |      43 | 16558.78 
 
                                              Predicate Information (identified by plan id)                                         
 ---------------------------------------------------------------------------------------------------------------------------------------
   3 --CStore Scan on item
         Filter: ((((name)::text = 'a'::text) AND (quantity = 1)) OR (((name)::text = 'b'::text) AND (quantity = 2)))
         Pushdown Predicate Filter: ((((name)::text = 'a'::text) AND (quantity = 1)) OR (((name)::text = 'b'::text) AND (quantity = 2)))

根据计划可以看出，在此情况下，DWS并不会针对IN表达式进行临时表哈希优化，也不会下推到存储层进行过滤。

一个属性有索引 + 一个属性无索引

接下来，我们检验一个属性（id）索引，一个属性（price）无索引的过滤情况。

查询语句如下：

SELECT * FROM item WHERE (id, price) IN ((1, 1), (2, 2));
 
SELECT * FROM item WHERE (id=1 AND price=1) OR (id=2 AND price=2)

在此场景下IN语句与OR语句生成的执行计划也是一致的，故其性能基本相同：

postgres=# explain SELECT * FROM item WHERE (id, price) IN ((1, 1), (2, 2));
 
                                       QUERY PLAN                                    
 
-----------------------------------------------------------------------------------------
 
  id |                operation                 | E-rows | E-memory | E-width | E-costs 
 ----+------------------------------------------+--------+----------+---------+---------
   1 | ->  Row Adapter                          |      1 |          |      43 | 17.27
   2 |    ->  Vector Streaming (type: GATHER)   |      1 |          |      43 | 17.27   
   3 |       ->  CStore Index Heap Scan on item |      1 | 16MB     |      43 | 11.27   
   4 |          ->  CStore Index Or(5, 6)       |      2 | 1MB      |       0 | 7.25  
   5 |             ->  CStore Index Ctid Scan   |      1 | 1MB      |       0 | 3.62  
   6 |             ->  CStore Index Ctid Scan   |      1 | 1MB      |       0 | 3.62  
 
               Predicate Information (identified by plan id)           
 --------------------------------------------------------------------------
   3 --CStore Index Heap Scan on item
         Recheck Cond: ((id = 1) OR (id = 2))
         Filter: (((id = 1) AND (price = 1)) OR ((id = 2) AND (price = 2)))
   5 --CStore Index Ctid Scan
         Index Cond: (id = 1)
   6 --CStore Index Ctid Scan
         Index Cond: (id = 2)
 
 
postgres=# explain SELECT * FROM item WHERE (id=1 AND price=1) OR (id=2 AND price=2);
 
                                       QUERY PLAN                                    
 
-----------------------------------------------------------------------------------------
  id |                operation                 | E-rows | E-memory | E-width | E-costs
 ----+------------------------------------------+--------+----------+---------+---------
   1 | ->  Row Adapter                          |      1 |          |      43 | 17.27   
   2 |    ->  Vector Streaming (type: GATHER)   |      1 |          |      43 | 17.27  
   3 |       ->  CStore Index Heap Scan on item |      1 | 16MB     |      43 | 11.27   
   4 |          ->  CStore Index Or(5, 6)       |      2 | 1MB      |       0 | 7.25  
   5 |             ->  CStore Index Ctid Scan   |      1 | 1MB      |       0 | 3.62  
   6 |             ->  CStore Index Ctid Scan   |      1 | 1MB      |       0 | 3.62  
 
               Predicate Information (identified by plan id)           
 
 --------------------------------------------------------------------------
   3 --CStore Index Heap Scan on item
         Recheck Cond: ((id = 1) OR (id = 2))
         Filter: (((id = 1) AND (price = 1)) OR ((id = 2) AND (price = 2)))
   5 --CStore Index Ctid Scan
         Index Cond: (id = 1)
   6 --CStore Index Ctid Scan
         Index Cond: (id = 2)

从计划可以看出，针对有索引属性( id), DWS会先进行索引扫描过滤，后进行位图合并。在最后扫描原表数据时，再把另外一个属性的过滤条件加上。

总结

根据上述的实验可以发现，在对单个属性进行过滤时，DWS对带有 IN 查询始终表现出对 OR 查询相当或更好的性能。对于具有大量谓词的查询尤其如此。

关于下推到存储层的优化，截止到本文发布时间，只有在IN运算符是除与WHERE语句中才会生效，并且IN查询单一属性的类型有要求，目前支持INT, NUMERIC,DATE,VARCHAR等，对于其他类型则不支持下推。而在执行层使用临时哈希表加速的功能适用于所有类型，并且为了平衡哈希本身带来的消耗与使用哈希获取的性能收益，只有当IN运算符中条件个数较多时才生效，如大于10个。

当根据多个属性进行过滤时，IN 和 OR 查询具有相同的性能，DWS优化器为两种查询生成的计划是一致的。

因此，我们建议您尽量使用 IN 子句，以最大化的提升查询的性能。

posted @ 2024-12-13 15:50 华为云开发者联盟阅读(33) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· GaussDB(DWS)性能调优：indexscan导致的性能问题识别与优化

· 【GaussDB(for MySQL)】 Big IN查询优化

· or 和 in 的效率对比

· 达梦SQL优化

· <<Mysql是怎样运行的>>小记-2

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业

历史上的今天：
2023-12-13 FQS：一种神奇的数仓查询优化技术
2023-12-13 教你使用Prometheus-Operator进行K8s集群监控
2023-12-13 TCP连接断开：为什么要挥手四次
2022-12-13 Karmada多云多集群生产实践专场圆满落幕
2022-12-13 性能达1.5+倍！昇腾AI助力分子动力学模拟研究
2022-12-13 Java开发如何通过IoT边缘ModuleSDK进行协议转换？
2022-12-13 GaussDB(DWS)运维：遇到truncate执行慢，怎么办？

公告

昵称：华为云开发者联盟
园龄： 4年9个月
粉丝： 855
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？

前言

实验数据准备

单一属性过滤

多属性过滤

总结

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论