如何迅速并识别处理MDL锁阻塞问题
1.数仓实践丨主动预防-DWS关键工具安装确认2.一条SQL如何被MySQL架构中的各个组件操作执行的?3.GaussDB(DWS)网络流控与管控效果4.GaussDB(DWS)字符串处理函数返回错误结果集排查5.从缓存的本质说起,说服技术大佬用Redis6.这年头怕数据泄露?全密态数据库:无所谓,我会出手7.华为云新一代分布式数据库GaussDB,给世界一个更优选择8.GaussDB技术解读丨高级压缩9.掌数科技携手华为云GaussDB,助力金融科技创新,联合打造行业标杆10.一文带你全面了解openGemini11.GaussDB(for Redis)多租户:读写权限控制和数据库隔离的完美融合12.5分钟迁移关系型数据库到图数据库13.数仓现网案例丨超大结果集接收异常14.DWS轻量化更新黑科技:宽表加工优化15.数据库行业需要什么样的人才?高校老师这样说16.数仓性能优化:倾斜优化-表达式计算倾斜的hint优化17.GaussDB技术解读系列之SQL Audit,面向应用开发的SQL审核工具18.带你认识数仓的监控系统TopSQL19.带你走进数仓大集群内幕丨详解关于作业hang及残留问题定位20.实时入库不用愁,HStore帮分忧21.openGauss数据库在CentOS上的安装实践22.揭秘华为云GaussDB(for Redis)丨大key治理23.GaussDB(DWS)函数不同写法引发的结果差异24.数仓中典型的几种不下推语句整改案例25.GaussDB技术解读系列之应用无损透明(ALT)26.华为云GaussDB(for Influx)单机版上线,企业降本增效利器来了27.数仓备份经验分享丨详解roach备份原理及问题处理套路28.中国云数据仓库,双第一!29.华为云GaussDB打造最可信的数据库,给世界一个更优选择30.GaussDB技术解读系列:高级压缩之OLTP表压缩31.十年磨一剑的华为云GES,高明在哪32.使用DWS集群,用户被锁定如何解锁33.GaussDB技术解读系列:高安全之密态等值34.GaussDB技术解读:应用无损透明(ALT)35.数仓资源管控理论已掌握,是时候实战了36.row_number函数的不稳定性37.GaussDB技术解读丨数据库迁移创新实践38.聊聊GaussDB AP是如何执行SQL的39.Navicat 携手华为云GaussDB,联合打造便捷高效的数据库开发和建模工具方案40.GaussDB技术解读系列丨运维自动驾驶探索41.一次性全讲透GaussDB(DWS)锁的问题42.GaussDB(DWS)性能调优:Sort+Groupagg聚集引起的性能瓶颈案例43.多主架构:VLDB技术论文《Taurus MM: bringing multi-master to the cloud》解读44.GaussDB(for Redis)游戏实践:玩家下线行为上报45.一文详解数据仓库的物理细粒度备份恢复46.华为云HBase冷热分离最佳实践47.四问复合索引,让你的数据查询速度飞起48.GaussDB(DWS)案例丨MERGE场景下语句不下推引起的性能瓶颈问题49.如何强制SQL走性能更优的hash join50.如何使用GaussDB(DWS)的本地临时表进行数据处理51.华为云GaussDB亮相金融业数据库技术大会52.2个数仓中不等值关联优化案例53.数仓实时场景下表行数估算不准确引起的的性能瓶颈问题案例54.详解GuassDB数据库权限命令:GRANT和REVOKE55.DWS临时内存不可用报错: memory temporarily unavailable56.华为云GaussDB城市沙龙活动走进安徽,助力金融行业数字化转型57.理论+应用,带你了解数据库资源池58.人人用数不用愁,动态数据脱敏为您解忧59.实例讲解数据库的数据去重60.数仓实践丨表扫描时过滤行数过多引起的性能瓶颈问题61.实例详解构建数仓中的行列转换62.Proxy下的Prepare透传,让GaussDB(for MySQL)更稳固,性能更卓越63.浅析KV存储之长尾时延解决办法64.实例讲解数据库的定义重载函数65.详解数据库SQL中的三个语句:DROP、TRUNCATE 、DELETE66.华为云GaussDB助力工商银行、华夏银行斩获“十佳卓越实践奖”67.Navicat 基于 GaussDB 主备版的快速入门68.数仓实时算子难以观测,快来试试算子级监控吧69.列举数据库缓存使用场景实例和命令速查表70.带你认识多模数据库GeminiDB架构与应用实践71.3招解决时序数据高基数难题,性能多维度提升!72.数仓性能调优:row_number() over(p)-rn=1性能瓶颈发现和改写套路73.数仓实践丨常量标量子查询做全连接导致整体慢74.细说GaussDB(DWS)的2种查询优化技术75.细说SQL与ETL之间的小秘密76.从概念到实践,带你掌握层次递归查询77.GeminiDB Cassandra接口新特性PITR发布:支持任意时间点恢复78.你的JoinHint为什么不生效79.六步走向无忧,华为云数据库高可用的秘密武器80.数仓调优实践丨SQL改写消除相关子查询81.GaussDB(for MySQL)新特性TDE发布:支持透明数据加密82.详解GaussDB(DWS)通信安全的小妙招:连接认证机制83.GaussDB(for MySQL) RegionlessDB发布:全球数据库技术84.5分钟带您了解DRS录制回放85.ICDM'23 BICE论文解读:基于双向LSTM和集成学习的模型框架86.数仓如何递归查询视图依赖87.支撑核心系统分布式改造,GaussDB为江南农商银行筑稳根基88.近6成金融机构的选择!华为云GaussDB加快金融核心系统转型89.GaussDB(for MySQL)剪枝功能,让查询性能提升70倍!90.2023年度十佳课题公布:华为云GaussDB获权威认可91.详解如何在数仓中搭建细粒度容灾应用92.对话苏光牛:国内数据库市场已进入关键转折点,2024年或是分水岭93.GaussDB通信运维:详解stream连接池设计原理94.GaussDB(for MySQL) Serverless全面商用:无感弹性,极致性价比95.华为云GaussDB支撑农行超级网银业务,性能和稳定性备受认可96.实例详解数据库的游标管理97.数仓实践丨从CU入手优化HStore表98.数仓的等待视图中,为什么会有Hashjoin-nestloop99.如何基于Sharding-JDBC实现GaussDB在客户端应用的读写分离
100.如何迅速并识别处理MDL锁阻塞问题
摘要:TaurusDB推出MDL锁视图功能,帮助用户迅速识别并处理MDL锁阻塞问题,从而有效减少对业务的负面影响,提升数据库管理效率。
本文分享自华为云社区《【华为云MySQL技术专栏】TaurusDB MDL锁视图》,作者:GaussDB 数据库。

一、背景
数据库中的元数据锁(MDL ,Metadata Lock),用来保护表元数据信息的一致性。用户对表进行读写操作或结构变更时,系统会添加不同类型的MDL锁。当客户业务设计不合理,有部分事务长时间持有MDL锁时,可能会阻塞其他会话获取相应的MDL锁。此时,用户使用执行‘SHOW PROCESSLIST’命令,通常会看到多个会话处于 “Waiting for metadata lock” 状态。但由于无法明确各个会话ID之间的关联,往往无法快速找到导致大量MDL锁等待的根源,使得用户不得不盲目地Kill大量可疑的会话,甚至直接重启实例来快速恢复业务,这种做法无疑增加了解决问题的成本,对业务产生较大影响。
因此,自社区MySQL 5.7版本之后,在PERFORMANCE_SCHEMA 库中新增了METADATA_LOCKS 表,用于记录系统中MDL锁的状态信息,但是需要客户启用 Performance Schema 性能分析监控插件。启用后,Performance Schema 会收集大量的性能数据,包括SQL语句执行情况和实例内的锁状态信息等,这会对 MySQL 实例的性能产生一定的负担,尤其在高并发的生产环境中,性能开销更为明显。
鉴于此,TaurusDB推出MDL锁视图功能,帮助用户迅速识别并处理MDL锁阻塞问题,从而有效减少对业务的负面影响,提升数据库管理效率。
二、MDL锁阻塞场景分析
我们以表1中的MDL锁阻塞案例来介绍MDL锁视图的使用场景

表1 MDL锁阻塞案例
由于SESSION 3存在一个长事务未提交,会一直持有t2表的MDL_SHARED_READ(SR)类型锁。当SESSION 4对表t2执行TRUNCATE操作时,需要获取MDL-EXCLUSIVE(X)锁,但由于MDL锁类型和SR锁不兼容而被阻塞。
随后,SESSION 5的DML操作在添加SR类型的锁时,发现MDL锁等待队列中有比SR类型的锁优先级更高的X锁在等待,所以SESSION 5的SR锁请求也会处于等待状态,详细原因可参考《【华为云MySQL技术专栏】TaurusDB新特性解读:非阻塞DDL》。
用户发现DDL和DML操作都被阻塞后,执行SHOW PROCESSLIST查看原因。在SHOW PROCESSLIST的信息中,只能看到如图1中的结果:

图 1 SHOW PROCESSLIST结果
-
SESSION 4执行TRUNCATE操作时,被其他SESSION持有的table metadata lock阻塞;
-
SESSION 5执行SELECT操作时,也同样被阻塞;
-
无法确定哪个会话(2或3?)阻塞了SESSION 4和SESSION 5;
此时,如果业务盲目地去kill其他会话(2或3),可能会影响其他不相关的业务,从而加大问题处理的成本。在实际的生产业务中,可能有更多的会话,用户从成百上千的会话信息中几乎无法找到导致MDL锁等待的根源,只能盲目地Kill大量的会话或者重启实例来快速恢复。而且用户在事后也无法定位到根因,从源头杜绝此类问题的再次发生。刚好,TaurusDB的MDL锁视图功能在这个时候就可以发挥作用。
三、MDL锁视图介绍
TaurusDB的MDL锁视图以系统表的形式呈现,该表位于INFORMATION_SCHEMA库下,表名为METADATA_LOCK_INFO。其中每一行的信息表示一个会话持有或正在等待的MDL锁信息。
每个字段的具体含义,如表2所示:

表2 MDL锁视图表字段含义
此表的查询结果中,同一个会话可能持有多行MDL锁的相关信息。主要有以下几方面的原因:
1)当执行涉及多张表的连表查询时,会给每一个表添加MDL_SHARED_READ模式的MDL锁。
2)事务级别的MDL锁,只有在事务结束时才会释放。因此,当一个事务涉及多张表的DML操作时,这个会话会同时持有多个MDL锁,直到事务结束。
3)在DDL语句的执行过程中,需要添加多种类型的MDL锁。例如,在添加列的DDL语句中,可能会添加Backup lock,Global read lock,Schema metadata lock,Table metadata lock,并且在不同阶段对锁的模式进行升/降级。
四、MDL锁视图使用方法
针对表格1中的MDL锁阻塞场景,用户可以执行以下SQL语句:SELECT * FROM INFORMATION_SCHEMA.METADATA_LOCK_INFO;
再结合SHOW PROCESSLIST的输出结果,快速定位到问题根因。
在图2元数据锁视图的结果信息中,我们应该从PENDING状态的会话开始入手。

图 2 元数据锁视图结果
根据MDL锁等待的TABLE_SCHEMA和TABLE_NAME信息,找到其他THREAD ID下,具有相同库名和表名且状态是GRANTED的MDL锁信息。这个THREAD ID即是造成锁等待的会话。
基于以上原理,我们可以看出:
-
会话4在等待获取test库t2表的MDL_EXCLUSIVE模式的元数据锁;
-
会话5在等待获取test库t2表的MDL_SHARED_READ模式的元数据锁;
-
会话3持有test库t2表t2的MDL锁,该MDL锁为事务级别,只要session 3 的事务不提交,session 4和5便会一直阻塞。
所以,通过MDL锁视图,我们只需要在会话3中执行Rollback或者Commit,便可以让业务继续运行。虽然MDL锁视图可以帮助定位到导致大量MDL锁等待的根源,但是当会话较多时,表中很多不相关的MDL锁信息查看起来也会耗费大量时间,这里我们提供一个可以快速查找到阻塞会话的SQL。在发生问题时,只要执行一下这个语句,就可以迅速找到需要kill的会话。
SELECT f.processlist_id, p.Info AS sql_info FROM ( SELECT DISTINCT c.blocking_processlist_id AS processlist_id FROM ( SELECT DISTINCT b.THREAD_ID AS blocking_processlist_id FROM information_schema.metadata_lock_info a JOIN information_schema.metadata_lock_info b ON a.TABLE_SCHEMA = b.TABLE_SCHEMA AND a.TABLE_NAME = b.TABLE_NAME AND a.lock_status = 'PENDING' AND b.lock_status = 'GRANTED' AND a.THREAD_ID <> b.THREAD_ID ) c WHERE c.blocking_processlist_id NOT IN ( SELECT DISTINCT d.THREAD_ID AS blocked_processlist_id FROM information_schema.metadata_lock_info d JOIN information_schema.metadata_lock_info e ON d.TABLE_SCHEMA = e.TABLE_SCHEMA AND d.TABLE_NAME = e.TABLE_NAME AND d.lock_status = 'PENDING' AND e.lock_status = 'GRANTED' AND d.THREAD_ID <> e.THREAD_ID ) ) f JOIN information_schema.processlist p ON processlist_id = p.Id;
五、原理解析
基于对《【华为云MySQL技术专栏】TaurusDB MDL实现机制解析》中MDL锁相关数据结构和MDL锁添加、释放流程的分析,TaurusDB在INFORMATION_SCHEMA库下添加了MDL锁视图。
在TaurusDB的内部架构中,每一个用户连接有一个THD(Thread Handler,线程处理器)对象,这些THD对象统一由Global_THD_manager结构体进行管理。如图3所示,每个THD对象关联了一个MDL_context实例,这个实例提供了线程级的MDL锁操作接口,包括申请、释放MDL锁以及锁的升降级。

图 3. MDL锁基本概念图
其中,THD中的MDL_context也有两个变量m_ticket_store和m_waiting_for用于维护会话持有和等待的MDL锁的信息。
-
m_ticket_store: 用来存储当前线程获取的所有MDL_ticket。为了提升搜索效率,根据MDL锁的持续时间(语句执行时间段,事务执行时间段和显示指定时间段)将其划分为三个链表,在需要获取MDL锁前,会先在这些链表内查询是否已经获取到了相同的或这是更强类型的MDL锁,如果搜索不到继续获取MDL锁。
-
m_waiting_for:用来存储当前线程正在等待的MDL锁,一个线程同一时刻只能等待一种类型的MDL锁。
每一个链表中的MDL_ticket对象是每个线程已经获取到的MDL锁或者是要请求的MDL锁的详细信息,其结构体内包含MDL锁的模式(enum_mdl_type)、MDL锁的持续时间(enum_mdl_duration)和MDL锁对象(MDL_lock)。其中,MDL_lock由MDL_key唯一标识。MDL_key是一个三元组,由命名空间(enum_mdl_namespace)、库名和对象名组成。
因此,在用户查询MDL锁视图时,实现流程如图4所示,只需要遍历所有会话THD的MDL_context对象,根据其m_ticket_store链表中的每一个MDL_ticket对象构造出处于GRANTED状态的MDL锁信息。同理,通过m_waiting_for对象获取到处于PENDING状态的MDL锁信息。最后,将结果集返回给客户端展示即可。

图 4 MDL锁视图实现流程
其中,i_s_metadata_lock_info_fill_table和List_THD_MDL_tickets为核心函数,用来实现遍历Global_THD_manager中的THD并从其MDL_context中构造当前会话的持有和等待的MDL锁信息。
i_s_metadata_lock_info_fill_table() { //对系统中每一个THD执行List_THD_MDL_tickets函数找到持有和等待的MDL锁 Global_THD_manager::get_instance()->do_for_all_thd_copy(List_THD_MDL_tickets) } List_THD_MDL_tickets() { // 获取当前THD的MDL_context: MDL_context &mdl_ctx = inspect_thd->mdl_context; // 获取当前THD持有的MDL锁 const MDL_ticket_store &m_ticket_store = mdl_ctx.get_mdl_ticket_store(); // 遍历每个m_ticket_store的三个作用范围内的MDL_ticket for (int i = 0; i < MDL_DURATION_END; i++) { MDL_ticket_store::List_iterator it = m_ticket_store.list_iterator(duration); lock_extras.duration = duration; while ((ticket = it++)) { enum_mdl_duration duration = (enum_mdl_duration)(i); // 根据MDL_ticket中的信息填充到MDL锁视图中 fill_row_callback(ticket, &lock_extras, args); } } // 获取当前THD等待的MDL锁 ticket = dynamic_cast<const MDL_ticket *>(mdl_ctx.get_m_waiting_for()); if (ticket != nullptr) { // 填充MDL锁的额外信息,PENDING状态和作用范围 lock_extras.lock_status = MDL_ticket::PENDING; lock_extras.duration = ticket->get_duration(); // 根据MDL_ticket中的信息填充到MDL锁视图中 fill_row_callback(ticket, &lock_extras, args); } }
六、总结
TaurusDB的MDL锁视图INFORMATION_SCHEMA.METADATA_LOCK_INFO,可以在不开启Performance Schema性能监控插件时,获取到实例系统中所有MDL锁的持有和等待状态。熟练的使用MDL锁视图,可以帮助用户快速地定位和分析导致大量 MDL 锁等待的根本原因,还能够根据分析结果进行迅速有效的处理,解决MDL长时间锁等待问题,并且不会因为依赖Performance Schema性能监控插件而对系统性能产生任何影响。
关注“GaussDB数据库”公众号,了解更多动态
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
2024-01-22 云小课|HSS对近期Cactus勒索病毒的分析
2024-01-22 带你熟悉NLP预训练模型:BERT
2024-01-22 Kmesh v0.1.0 版本发布
2022-01-22 在springboot中,如何读取配置文件中的属性
2022-01-22 一通百通,带你一次性全理解Spring 中的Template
2022-01-22 sqoop如何指定pg库的模式
2022-01-22 关于看板方法,你需要知道的几件事