【GaussDB(for MySQL)】 Big IN查询优化

合集 - 数据库最新分享(87)

1.华为云峰会2024，GaussDB扬帆出海，给世界一个更优选择2024-02-28 2.预算有限，资源冗余？DWS集群缩容如何帮你解决烦劳2024-02-29 3.数智融合，华为云GaussDB(for MySQL)助力企业释放数据新价值2024-03-01 4.RDS for MySQL Serverless公测上线：弹性伸缩，最高可降成本超80%2024-03-04 5.GaussDB跨云容灾：实现跨地域的数据库高可用能力2024-03-05 6.实例详解如何构建动态SQL语句2024-03-05 7.GaussDB(DWS)运维利刃：TopSQL工具解析2024-03-07 8.手把手带你认识GaussDB轻量化运维管理工具2024-03-08 9.守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移2024-03-08 10.GaussDB(DWS)集群通信：详解pooler连接池2024-03-11 11.Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招2024-03-12 12.实例带你了解GaussDB数据库的LOCK TABLE2024-03-12 13.RDS for MariaDB“智能DBA助手”，让运维效率嗖嗖地！2024-03-12 14.实例带你了解GaussDB的索引管理2024-03-14 15.详解GaussDB(DWS)中3个防过载检查项2024-03-18 16.华为云数据库创新发展论坛，打造行业更优数据库底座！2024-03-19 17.GaussDB(分布式)实例故障处理2024-03-19 18.华为云GeminiDB新版本发布：全面支持Redis 6.22024-03-20 19.究竟什么样的数据库，才能承接RTA广告这个技术活！2024-03-20 20.GaussDB(DWS) 业务高可靠的三大利器：CN RETRY、远程读、ELB2024-03-25 21.走在前、做示范，苏州农商银行携华为云完成超级网银系统改造2024-03-25 22.分布式数据库技术的演进和发展方向2024-03-26 23.新版Redis不再“开源”，对使用者都有哪些影响？2024-03-27 24.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置2024-03-29 25.GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回2024-04-01 26.探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析2024-04-01 27.详解数仓对象设计中序列SEQUENCE原理与应用2024-04-02 28.数仓调优实战：GUC参数调优2024-04-07 29.详讲openGauss 5.0 单点企业版如何部署_Centos7_x862024-04-08 30.华为云GeminiDB，广告RTA的“登云梯”2024-04-09 31.DTC2024，华为云数据库创新融合大发展，打造世界级数据库！2024-04-17 32.GaussDB(DWS)基于Flink的实时数仓构建2024-04-18 33.数仓的两种轻量级数据交换格式：json与jsonb2024-04-19 34.重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验2024-04-23 35.“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！2024-04-24 36.GaussDB SQL查询语句执行过程解析2024-04-24 37.详解数仓的向量化执行引擎2024-04-25 38.Redis开源社区持续壮大，华为云为Valkey项目注入新的活力2024-05-06 39.详解数仓的3A安全能力2024-05-07

40.【GaussDB(for MySQL)】 Big IN查询优化2024-05-09

41.GaussDB细粒度资源管控技术透视2024-05-09 42.带你了解GaussDB SQL中的BOOLEAN表达式2024-05-10 43.数仓安全：数据脱敏技术深度解析2024-05-10 44.详解GaussDB(DWS)中的行执行引擎2024-05-11 45.了解GaussDB SQL中CASE表达式2024-05-13 46.JDBC连接openGauss6.0和PostgreSQL16.2性能对比2024-05-14 47.MySQL 给用户添加 ALTER VIEW 的权限2024-05-15 48.MySQL全文索引源码剖析之Insert语句执行过程2024-05-20 49.全球厂商之最，华为17篇论文入选国际数据库顶会ICDE2024-05-22 50.GeminiDB PITR，让游戏回档“进退自如”！2024-05-24 51.浅析MySQL 8.0直方图原理2024-05-27 52.LLVM技术在GaussDB等数据库中的应用2024-06-03 53.告别内存OOM，解决MySQL内存增长问题2024-06-04 54.从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践2024-06-04 55.深度体验与测评openGauss 6.0.0新版本2024-06-11 56.深度解读数据库引入LLVM技术后如何提升性能2024-06-12 57.从Purge机制说起，详解GaussDB(for MySQL)的优化策略2024-06-17 58.攀登不止，华为数据库论文入选SIGMOD 2024，技术创新再谱新篇2024-06-18 59.技术解读数据库如何实现“多租户”？2024-06-20 60.解读MySQL 8.0数据字典的初始化与启动2024-06-24 61.GeminiDB全面联动MySQL：热点数据，一键加速2024-06-26 62.探秘数据库中的并行计算技术应用2024-07-01 63.硬核解读，WeTune是如何提升数据库查询重写性能？2024-07-04 64.开源数据库Greenplu突然闭源？GaussDB(DWS)提供数仓新可能2024-07-08 65.数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决2024-07-10 66.MySQL派生表合并优化的原理和实现2024-07-11 67.华为云发起，openGemini正式成为CNCF官方项目！2024-07-11 68.MySQL中为什么要使用索引合并(Index Merge)？2024-07-12 69.解读MySQL 8.0数据字典缓存管理机制2024-07-16 70.解读GaussDB(for MySQL)灵活多维的二级分区表策略2024-07-19 71.深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略2024-07-25 72.一图为你揭秘云数据库GaussDB管理平台亮点2024-10-17 73.深度解读GaussDB逻辑解码技术原理2024-10-28 74.深度解读RDS for MySQL 审计日志功能和原理2024-10-29 75.遇到慢查询怎么办？一文解读MySQL 8.0查询分析工具2024-10-31 76.从源码分析，MySQL优化器如何估算SQL语句的访问行数2024-11-11 77.一文带你搞懂GaussDB数据库性能调优2024-11-18 78.揭秘UGO SQL审核功能4大特性，让业务平滑迁移至GaussDB2024-12-02 79.了解GaussDB性能调优之隐式转换，解决慢SQL问题2024-12-10 80.全面解读TaurusDB透明压缩特性，降低数据库使用成本2024-12-11 81.解读GaussDB的BTree索引和UBTree索引，如何带来更强并发能力2024-12-13 82.想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？2024-12-13 83.详解GaussDB(DWS)逻辑集群，如何化解大规模业务数据管理难题2024-12-17 84.TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间2024-12-18 85.拦截烂SQL，解读GaussDB(DWS)查询过滤器过滤规则原理2024-12-20 86.开源for Huawei，Beam适配GaussDB实践案例分享2024-12-24 87.优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze2024-12-25

本文分享自华为云社区《【MySQL技术专栏】GaussDB(for MySQL) Big IN查询优化》，作者：GaussDB 数据库。

20240508-164135(WeLinkPC).jpg

背景介绍

在生产环境中，经常会遇到客户业务的SQL语句进行过滤查询，然后进行聚合处理，并且IN谓词列表中包含几千甚至上万个常量值。如下所示，此类语句的执行时间非常长。

MySQL优化

开源MySQL在处理列IN (const1, const2, .... )时，如果列上面有索引，优化器会选择Range scan进行扫描，否则会使用全表扫描方式。range_optimizer_max_mem_size系统变量控制范围优化过程分析中可使用的最大内存。如果IN谓词的列表元素非常多，IN中每个的内容都会被视为OR每个，OR大约占用230字节，如果元素个数很多，则使用更多的内存。如果使用内存会超过定义的最大内存，会使范围优化失效，优化器将改变策略，如转换为全表扫描，从而引发查询的性能下降。

对于这个优化问题，可以通过调整range_optimizer_max_mem_size来处理。range_optimizer_max_mem_size定义的内存是会话级别的，每个会话执行该类型的语句，都会占用相同的内存，在大并发场景下，会导致实例内存占用过高，实例OOM风险。

对于范围查询，MySQL定义了eq_range_index_dive_limit系统变量，来控制在处理等值范围查询时，优化器是否进行索引潜水（index div）。索引潜水是利用索引完成元组数的说明，可以得到更准确的信息，从而做出更好的查询策略优化，但是运行时间也长。在IN组合数超过一定数量的时候就不适用索引跳水，系统采用静态索引统计信息值来选择索引，这种方法得到的结果一定准确。这可能导致MySQL无法很好的利用索引，导致性能回退。

GaussDB(for MySQL)的Big IN优化

GaussDB(for MySQL)Big IN 性能问题的方法将大IN谓词转换为IN子查询。因此解决，IN谓词的形式为：

column IN (const1, const2, ....)

转换为对应的IN子查询：

column IN (SELECT ... FROM temporary_table)

经过上述的变化，IN函数查询变成了一个IN子查询，并且该子查询是非相关子查询。

对于IN非相关子查询，MySQL优化器提供了半连接物化策略进行优化处理。半连接物化策略就是把子查询结果物化成临时表，然后和外观进行连接。如下图所示：

串联可以有两个顺序：

Materialization-scan：表示从物化表到外观，对物化表进行全表扫描。
Materialization-lookup ：表示从外观到物化表，在物化表中查找数据的时候可以使用主建进行查找。

物化扫描

执行子查询，走索引auto_distinct_key，同时对结果进行去重；
将上一步的结果保存在临时表模板1里；
从临时表中取一行数据，到外观中找到满足补充条件的行；
步骤重复3，直到遍历临时表结束。

物化查找

先执行子查询；
将上一步得到的结果保存到临时表中；
从外观中取出一行数据，到物化临时表中去查找满足补充条件的行，走物化表的主键，每次扫描1行；
重复3，直至浏览整个外观。

优化器会根据内部外观的大小来选择不同的串联顺序。真实场景中，一般查询的表的数据量很大，上千万甚至上亿；IN列表中的元素个数远小于表数量，优化器会选择Materialization-scan方式进行扫描，外观查询时如果走主键索引，则优化后的总的扫描行数为N，当M远大于N时，性能提升会非常明显。

使用方法

rds_in_predicate_conversion_threshold参数是修改IN谓词底部该查询功能开关，当SQL语句的IN谓词列表中的元素个数超过参数的取值时，将启动该优化策略。通过该变量的值来使用该功能。下面一个简单的例子说明优化的使用：

表结构

create table t1(id int, a int, key idx1(a));

查询语句

select * from t1 where a in (1,2,3,4,5);

设置set rds_in_predicate_conversion_threshold = 0 和 set range_optimizer_max_mem_size=1关闭大IN谓词优化功能和范围扫描优化策略，查看上述查询语句的执行计划，结果如下：

> set rds_in_predicate_conversion_threshold = 0;  > set range_optimizer_max_mem_size=1;  > explain select * from t1 where a in (1,2,3,4,5);  
结果如下：
+----+-------------+-------+------------+------+---------------+------+---------+------+------+----------+-------------+  | id | select_type | table | partitions | type | possible_keys | key  | key_len | ref  | rows | filtered | Extra       |  +----+-------------+-------+------------+------+---------------+------+---------+------+------+----------+-------------+  |  1 | SIMPLE      | t3    | NULL       | ALL  | key1          | NULL | NULL    | NULL |    3 |    50.00 | Using where |  +----+-------------+-------+------------+------+---------------+------+---------+------+------+----------+-------------+  1 row in set, 2 warnings (0.00 sec)  
show warnings;  +---------+------+---------------------------------------------------------------------------------------------------------------------------+  | Level   | Code | Message                                                                                                                   |  +---------+------+---------------------------------------------------------------------------------------------------------------------------+  | Warning | 3170 | Memory capacity of 1 bytes for 'range_optimizer_max_mem_size' exceeded. Range optimization was not done for this query.   |  | Note    | 1003 | /* select#1 */ select `test`.`t3`.`id` AS `id`,`test`.`t3`.`a` AS `a` from `test`.`t3` where (`test`.`t3`.`a` in (3,4,5)) |  +---------+------+---------------------------------------------------------------------------------------------------------------------------+  2 rows in set (0.00 sec)

发现上述语句执行的时候报了警告，警告的信息显示因为范围优化过程中使用的内存超过了range_optimizer_max_mem_size导致对于该语句没有使用范围限制优化。从而导致扫描的类型变成了ALL，变为全表扫描。

设置set rds_in_predicate_conversion_threshold = 3开启大IN谓词优化选项，表示当IN谓词列表元素超过3个的时候，启动大IN队列查询优化策略。执行EXPLAIN FORMAT=TREE语句可以查看优化是否生效。

> set rds_in_predicate_conversion_threshold = 3;  > explain format=tree select * from t1 where a in (1,2,3,4,5);  +----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+  | EXPLAIN                                                                                                                                                                                                                                                        |  +----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+  | -> Nested loop inner join  (cost=0.70 rows=1)      -> Filter: (t1.a is not null)  (cost=0.35 rows=1)          -> Table scan on t1  (cost=0.35 rows=1)      -> Single-row index lookup on <in_predicate_2> using <auto_distinct_key> (a=t1.a)  (cost=0.35 rows=1)   |  +----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+  1 row in set (0.00 sec)

执行计划中的<in_predicate_*>（*为数字）表为Big INTool中构造的临时表，存储了IN谓词列表中的所有数据。

使用限制

Big IN优化支持的查询语句包括以下语句列表：

选择
插入...选择
替换...选择
支持观点
准备好的STMT

约束与限制

Big IN 转子查询，借助mysql提供的子查询优化方案来实现性能，因此在使用上有如下限制，否则反而会降低性能。

不支持无法使用索引的场景
只支持常量IN LIST（包括NOW(), ?等不涉及表查询的语句）
不支持存储过程/函数/触发器
不支持不在

典型场景测试对比

表测试结构如下：

CREATE TABLE `sbtest1` (    `id` int NOT NULL AUTO_INCREMENT,    `k` int NOT NULL DEFAULT '0',    `c` char(120) NOT NULL DEFAULT '',    `pad` char(60) NOT NULL DEFAULT '',    PRIMARY KEY (`id`),    KEY `k_1` (`k`)  ) ENGINE=InnoDB;  
表的数据量为1000w。
> select count(*) from sbtest1;  +----------+  | count(*) |  +----------+  | 10000000 |  +----------+

查询语句如下，其中条件字段是有索引，IN列表里包含1万个常量数字。

select count(*) from sbtest1 where k in (2708275,5580784,7626186,8747250,228703,4589267,5938459,6982345,2665948,4830545,4929382,8723757,354179,1903875,5111120,5471341,7098051,3113388,2584956,6550102,2842606,2744112,7077924,4580644,5515358,1787655,6391388,6044316,2658197,5628504,413887,6058866,3321587,1430333,445303,7373496,9133196,6760595,4735642,4756387,9845147,9362192,7271805,4351748,6625915,3813276,4236692,8308973,4407131,9481423,3301846,432577,810938,3830320,6120078,6765157,6456566,6649509,1123840,2906490,9965014,3725748, ... );
性能对比如下图所示：

可以看出in-list优化后比原有的方式性能提高了36倍。

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-05-09 09:20 华为云开发者联盟阅读(85) 评论(0) 编辑收藏举报

【GaussDB(for MySQL)】 Big IN查询优化

背景介绍

MySQL优化

GaussDB(for MySQL)的Big IN优化

使用方法

使用限制

典型场景测试对比

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论