数仓的等待视图中，为什么会有Hashjoin-nestloop

合集 - 数据库(100)

1.数仓实践丨主动预防-DWS关键工具安装确认2023-04-25 2.一条SQL如何被MySQL架构中的各个组件操作执行的？2023-05-04 3.GaussDB(DWS)网络流控与管控效果2023-05-05 4.GaussDB(DWS)字符串处理函数返回错误结果集排查2023-05-06 5.从缓存的本质说起，说服技术大佬用Redis2023-05-10 6.这年头怕数据泄露？全密态数据库：无所谓，我会出手2023-05-19 7.华为云新一代分布式数据库GaussDB，给世界一个更优选择2023-06-09 8.GaussDB技术解读丨高级压缩2023-07-19 9.掌数科技携手华为云GaussDB，助力金融科技创新，联合打造行业标杆2023-07-20 10.一文带你全面了解openGemini2023-07-25 11.GaussDB(for Redis)多租户：读写权限控制和数据库隔离的完美融合2023-07-26 12.5分钟迁移关系型数据库到图数据库2023-07-26 13.数仓现网案例丨超大结果集接收异常2023-07-27 14.DWS轻量化更新黑科技：宽表加工优化2023-07-28 15.数据库行业需要什么样的人才？高校老师这样说2023-07-31 16.数仓性能优化：倾斜优化-表达式计算倾斜的hint优化2023-08-01 17.GaussDB技术解读系列之SQL Audit，面向应用开发的SQL审核工具2023-08-02 18.带你认识数仓的监控系统TopSQL2023-08-04 19.带你走进数仓大集群内幕丨详解关于作业hang及残留问题定位2023-08-07 20.实时入库不用愁，HStore帮分忧2023-08-08 21.openGauss数据库在CentOS上的安装实践2023-08-10 22.揭秘华为云GaussDB(for Redis)丨大key治理2023-08-11 23.GaussDB(DWS)函数不同写法引发的结果差异2023-08-11 24.数仓中典型的几种不下推语句整改案例2023-08-14 25.GaussDB技术解读系列之应用无损透明（ALT）2023-08-14 26.华为云GaussDB(for Influx)单机版上线，企业降本增效利器来了2023-08-15 27.数仓备份经验分享丨详解roach备份原理及问题处理套路2023-08-16 28.中国云数据仓库，双第一！2023-08-21 29.华为云GaussDB打造最可信的数据库，给世界一个更优选择2023-08-22 30.GaussDB技术解读系列：高级压缩之OLTP表压缩2023-08-23 31.十年磨一剑的华为云GES，高明在哪2023-08-25 32.使用DWS集群，用户被锁定如何解锁2023-08-25 33.GaussDB技术解读系列：高安全之密态等值2023-08-28 34.GaussDB技术解读：应用无损透明（ALT）2023-08-30 35.数仓资源管控理论已掌握，是时候实战了2023-09-04 36.row_number函数的不稳定性2023-09-05 37.GaussDB技术解读丨数据库迁移创新实践2023-09-07 38.聊聊GaussDB AP是如何执行SQL的2023-09-07 39.Navicat 携手华为云GaussDB，联合打造便捷高效的数据库开发和建模工具方案2023-09-11 40.GaussDB技术解读系列丨运维自动驾驶探索2023-09-12 41.一次性全讲透GaussDB（DWS）锁的问题2023-09-13 42.GaussDB(DWS)性能调优：Sort+Groupagg聚集引起的性能瓶颈案例2023-09-14 43.多主架构：VLDB技术论文《Taurus MM: bringing multi-master to the cloud》解读2023-09-14 44.GaussDB（for Redis）游戏实践：玩家下线行为上报2023-09-18 45.一文详解数据仓库的物理细粒度备份恢复2023-09-18 46.华为云HBase冷热分离最佳实践2023-09-25 47.四问复合索引，让你的数据查询速度飞起2023-09-27 48.GaussDB(DWS)案例丨MERGE场景下语句不下推引起的性能瓶颈问题2023-10-07 49.如何强制SQL走性能更优的hash join2023-10-13 50.如何使用GaussDB(DWS)的本地临时表进行数据处理2023-10-17 51.华为云GaussDB亮相金融业数据库技术大会2023-10-18 52.2个数仓中不等值关联优化案例2023-10-19 53.数仓实时场景下表行数估算不准确引起的的性能瓶颈问题案例2023-10-24 54.详解GuassDB数据库权限命令：GRANT和REVOKE2023-10-26 55.DWS临时内存不可用报错: memory temporarily unavailable2023-10-27 56.华为云GaussDB城市沙龙活动走进安徽，助力金融行业数字化转型2023-10-31 57.理论+应用，带你了解数据库资源池2023-11-02 58.人人用数不用愁，动态数据脱敏为您解忧2023-11-03 59.实例讲解数据库的数据去重2023-11-07 60.数仓实践丨表扫描时过滤行数过多引起的性能瓶颈问题2023-11-08 61.实例详解构建数仓中的行列转换2023-11-08 62.Proxy下的Prepare透传，让GaussDB(for MySQL)更稳固，性能更卓越2023-11-09 63.浅析KV存储之长尾时延解决办法2023-11-10 64.实例讲解数据库的定义重载函数2023-11-15 65.详解数据库SQL中的三个语句：DROP、TRUNCATE 、DELETE2023-11-16 66.华为云GaussDB助力工商银行、华夏银行斩获“十佳卓越实践奖”2023-11-17 67.Navicat 基于 GaussDB 主备版的快速入门2023-11-20 68.数仓实时算子难以观测，快来试试算子级监控吧2023-11-21 69.列举数据库缓存使用场景实例和命令速查表2023-11-24 70.带你认识多模数据库GeminiDB架构与应用实践2023-11-27 71.3招解决时序数据高基数难题，性能多维度提升！2023-11-27 72.数仓性能调优：row_number() over(p)-rn=1性能瓶颈发现和改写套路2023-11-28 73.数仓实践丨常量标量子查询做全连接导致整体慢2023-11-30 74.细说GaussDB(DWS)的2种查询优化技术2023-12-04 75.细说SQL与ETL之间的小秘密2023-12-06 76.从概念到实践，带你掌握层次递归查询2023-12-08 77.GeminiDB Cassandra接口新特性PITR发布：支持任意时间点恢复2023-12-11 78.你的JoinHint为什么不生效2023-12-18 79.六步走向无忧，华为云数据库高可用的秘密武器2023-12-22 80.数仓调优实践丨SQL改写消除相关子查询2023-12-25 81.GaussDB(for MySQL)新特性TDE发布：支持透明数据加密2024-01-08 82.详解GaussDB(DWS)通信安全的小妙招：连接认证机制2024-01-10 83.GaussDB(for MySQL) RegionlessDB发布：全球数据库技术2024-01-12 84.5分钟带您了解DRS录制回放2024-01-15 85.ICDM'23 BICE论文解读：基于双向LSTM和集成学习的模型框架2024-01-19 86.数仓如何递归查询视图依赖2024-01-24 87.支撑核心系统分布式改造，GaussDB为江南农商银行筑稳根基2024-01-25 88.近6成金融机构的选择！华为云GaussDB加快金融核心系统转型2024-01-25 89.GaussDB(for MySQL)剪枝功能，让查询性能提升70倍！2024-01-29 90.2023年度十佳课题公布：华为云GaussDB获权威认可2024-01-30 91.详解如何在数仓中搭建细粒度容灾应用2024-02-01 92.对话苏光牛：国内数据库市场已进入关键转折点，2024年或是分水岭2024-02-06 93.GaussDB通信运维：详解stream连接池设计原理2024-02-19 94.GaussDB(for MySQL) Serverless全面商用：无感弹性，极致性价比2024-02-19 95.华为云GaussDB支撑农行超级网银业务，性能和稳定性备受认可2024-02-22 96.实例详解数据库的游标管理2024-02-26 97.数仓实践丨从CU入手优化HStore表2024-02-27

98.数仓的等待视图中，为什么会有Hashjoin-nestloop2024-02-28

99.如何基于Sharding-JDBC实现GaussDB在客户端应用的读写分离01-20 100.如何迅速并识别处理MDL锁阻塞问题01-22

本文分享自华为云社区《GaussDB(DWS)等待视图之Hashjoin-nestloop》，作者：Arrow0lf。

1. 业务场景

众所周知，GaussDB(DWS)中有3种常见的join方式：HashJon/MergeJoin/NestLoop

但在有一些场景中，等待视图中等待状态会显示为：HashJoin-nestloop，如下图所示。这种表示什么含义？

2. 基本原理

为了明白该状态的原因，首先思考如下场景：当业务侧两张大表join时，如果由于未做analyze或统计信息不准，导致build hash的一侧选择了大表，且该表在join列上重复值很多，会导致hashjoin时内存膨胀，当内存不足时，hashjon算子会下盘，但是由于join列上存在大量重复值，下盘文件无法有效分裂，此时，如果将整个文件都读取到内存中，会导致内存占用很高，出现内存过载，导致其他业务内存不足报错。

为了解决该场景，在向量化hashjoin时，当使用内表创建的hash表过大导致内存不足时，不再强制进行hashjoin，会通过内外表交换或执行nestloop使查询平稳进行，防止出现内存报错，此时，等待视图状态为“HashJoin-nestloop”

上述特性通过hashjoin_spill_strategy参数控制，默认为0，取值范围为0-6的整数，详情可以参考产品文档（8.1.2及以上版本），简单来讲：

取值为0或5，hashjoin时会先尝试内外表交换，如果仍然内存占用高，会选择nestloop；

取值为1或6，hashjoin时会先尝试内外标交换，如果仍然内存占用高，会强行执行hashjoin;

取值为2，hashjoin行为和原本的行为保持一致，即使内存不够，也会强制执行hashjoin