数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决

合集 - 数据库最新分享(87)

1.华为云峰会2024，GaussDB扬帆出海，给世界一个更优选择2024-02-28 2.预算有限，资源冗余？DWS集群缩容如何帮你解决烦劳2024-02-29 3.数智融合，华为云GaussDB(for MySQL)助力企业释放数据新价值2024-03-01 4.RDS for MySQL Serverless公测上线：弹性伸缩，最高可降成本超80%2024-03-04 5.GaussDB跨云容灾：实现跨地域的数据库高可用能力2024-03-05 6.实例详解如何构建动态SQL语句2024-03-05 7.GaussDB(DWS)运维利刃：TopSQL工具解析2024-03-07 8.手把手带你认识GaussDB轻量化运维管理工具2024-03-08 9.守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移2024-03-08 10.GaussDB(DWS)集群通信：详解pooler连接池2024-03-11 11.Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招2024-03-12 12.实例带你了解GaussDB数据库的LOCK TABLE2024-03-12 13.RDS for MariaDB“智能DBA助手”，让运维效率嗖嗖地！2024-03-12 14.实例带你了解GaussDB的索引管理2024-03-14 15.详解GaussDB(DWS)中3个防过载检查项2024-03-18 16.华为云数据库创新发展论坛，打造行业更优数据库底座！2024-03-19 17.GaussDB(分布式)实例故障处理2024-03-19 18.华为云GeminiDB新版本发布：全面支持Redis 6.22024-03-20 19.究竟什么样的数据库，才能承接RTA广告这个技术活！2024-03-20 20.GaussDB(DWS) 业务高可靠的三大利器：CN RETRY、远程读、ELB2024-03-25 21.走在前、做示范，苏州农商银行携华为云完成超级网银系统改造2024-03-25 22.分布式数据库技术的演进和发展方向2024-03-26 23.新版Redis不再“开源”，对使用者都有哪些影响？2024-03-27 24.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置2024-03-29 25.GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回2024-04-01 26.探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析2024-04-01 27.详解数仓对象设计中序列SEQUENCE原理与应用2024-04-02 28.数仓调优实战：GUC参数调优2024-04-07 29.详讲openGauss 5.0 单点企业版如何部署_Centos7_x862024-04-08 30.华为云GeminiDB，广告RTA的“登云梯”2024-04-09 31.DTC2024，华为云数据库创新融合大发展，打造世界级数据库！2024-04-17 32.GaussDB(DWS)基于Flink的实时数仓构建2024-04-18 33.数仓的两种轻量级数据交换格式：json与jsonb2024-04-19 34.重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验2024-04-23 35.“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！2024-04-24 36.GaussDB SQL查询语句执行过程解析2024-04-24 37.详解数仓的向量化执行引擎2024-04-25 38.Redis开源社区持续壮大，华为云为Valkey项目注入新的活力2024-05-06 39.详解数仓的3A安全能力2024-05-07 40.【GaussDB(for MySQL)】 Big IN查询优化2024-05-09 41.GaussDB细粒度资源管控技术透视2024-05-09 42.带你了解GaussDB SQL中的BOOLEAN表达式2024-05-10 43.数仓安全：数据脱敏技术深度解析2024-05-10 44.详解GaussDB(DWS)中的行执行引擎2024-05-11 45.了解GaussDB SQL中CASE表达式2024-05-13 46.JDBC连接openGauss6.0和PostgreSQL16.2性能对比2024-05-14 47.MySQL 给用户添加 ALTER VIEW 的权限2024-05-15 48.MySQL全文索引源码剖析之Insert语句执行过程2024-05-20 49.全球厂商之最，华为17篇论文入选国际数据库顶会ICDE2024-05-22 50.GeminiDB PITR，让游戏回档“进退自如”！2024-05-24 51.浅析MySQL 8.0直方图原理2024-05-27 52.LLVM技术在GaussDB等数据库中的应用2024-06-03 53.告别内存OOM，解决MySQL内存增长问题2024-06-04 54.从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践2024-06-04 55.深度体验与测评openGauss 6.0.0新版本2024-06-11 56.深度解读数据库引入LLVM技术后如何提升性能2024-06-12 57.从Purge机制说起，详解GaussDB(for MySQL)的优化策略2024-06-17 58.攀登不止，华为数据库论文入选SIGMOD 2024，技术创新再谱新篇2024-06-18 59.技术解读数据库如何实现“多租户”？2024-06-20 60.解读MySQL 8.0数据字典的初始化与启动2024-06-24 61.GeminiDB全面联动MySQL：热点数据，一键加速2024-06-26 62.探秘数据库中的并行计算技术应用2024-07-01 63.硬核解读，WeTune是如何提升数据库查询重写性能？2024-07-04 64.开源数据库Greenplu突然闭源？GaussDB(DWS)提供数仓新可能2024-07-08

65.数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决2024-07-10

66.MySQL派生表合并优化的原理和实现2024-07-11 67.华为云发起，openGemini正式成为CNCF官方项目！2024-07-11 68.MySQL中为什么要使用索引合并(Index Merge)？2024-07-12 69.解读MySQL 8.0数据字典缓存管理机制2024-07-16 70.解读GaussDB(for MySQL)灵活多维的二级分区表策略2024-07-19 71.深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略2024-07-25 72.一图为你揭秘云数据库GaussDB管理平台亮点2024-10-17 73.深度解读GaussDB逻辑解码技术原理2024-10-28 74.深度解读RDS for MySQL 审计日志功能和原理2024-10-29 75.遇到慢查询怎么办？一文解读MySQL 8.0查询分析工具2024-10-31 76.从源码分析，MySQL优化器如何估算SQL语句的访问行数2024-11-11 77.一文带你搞懂GaussDB数据库性能调优2024-11-18 78.揭秘UGO SQL审核功能4大特性，让业务平滑迁移至GaussDB2024-12-02 79.了解GaussDB性能调优之隐式转换，解决慢SQL问题2024-12-10 80.全面解读TaurusDB透明压缩特性，降低数据库使用成本2024-12-11 81.解读GaussDB的BTree索引和UBTree索引，如何带来更强并发能力2024-12-13 82.想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？2024-12-13 83.详解GaussDB(DWS)逻辑集群，如何化解大规模业务数据管理难题2024-12-17 84.TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间2024-12-18 85.拦截烂SQL，解读GaussDB(DWS)查询过滤器过滤规则原理2024-12-20 86.开源for Huawei，Beam适配GaussDB实践案例分享2024-12-24 87.优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze2024-12-25

本文分享自华为云社区《【云驻共创】GaussDB（DWS）运维利刃：TopSQL工具解析》，作者：金鱼哥。

在生产环境中，难免会面临查询语句出现异常中断、阻塞时间长等突发问题，如果没能及时记录信息，事后就需要投入更多的人力及时间成本进行问题的定位和解决，有时还无法定位到错误出现的地方。为了解决这种场景，GaussDB（DWS）提供了强大的运维工具TopSQL，对运行中和运行完成的语句全方面记录，帮助用户定位性能问题。而TopSQL被誉为性能定位、劣化分析等的重要基石，为用户提供覆盖内存、耗时、IO、网络、空间等多方面的信息记录。接下来将介绍TopSQL的基本原理、能力及典型应用场景，并讲解如何使用好TopSQL这把运维利刃。

一、TopSQL简介

1. 什么是TopSQL？

TopSQL是GaussDB（DWS）数据库中内置的一款功能十分强大的性能分析工具。在实际生产环境中，难免会出现一些突发情况，导致查询语句出现异常中断、阻塞时间长等情况，如果当时没能记录下来，那么事后就要投入更多的人力以及时间成本去对错误进行定位和解决，有时还往往定位不到错误出现的地方。

为了解决这样的窘迫的情况，GaussDB(DWS)开发了TopSQL功能，对运行中的语句记录（实时TopSQL），对运行完成的语句进行记录（历史TopSQL）。

TopSQL作为GaussDB(DWS)的性能诊断工具，记录GaussDB(DWS)中各个作业、算子级别的资源使用数据、耗时数据，包括下盘信息、内存、网络、耗时、自诊断告警、基础信息等作业执行的数据。

2. 怎么实现TopSQL功能？

在GaussDB中，通过设定GUC参数，来开启TopSQL功能，由于小功能不同，那么相应的小功能的GUC参数也会有所区别。

大部分都是开关类型的，想要自定义场景就只需要关注传参类型的参数，以及参数之间的依赖关系即可。下一章节将介绍常用系统表和参数的设置介绍。

开启TopSQL功能必须要确保如下参数设置（下列参数为开启TopSQL功能的必要条件）：

user_workload_manager = on（默认为on）

enable_resource_track = on（默认为on）

resource_track_level = query / perf / operator（默认为query）

若是8.2.1.200版本，新增一个枚举参数为operator_realtime

二、TopSQL系统表和参数介绍

1. 公共GUC参数

以GaussDB(DWS) 8.1.3版本为例，推荐TopSQL相关的一些参数，如下表所示：

参数配置	解释及用法
enable_resource_track：on	资源监控总开关，开启后TopSQL才能发挥作用。
enable_resource_record：on	控制实时TopSQL是否做历史TopSQL转储，813版本推荐打开，方便对历史问题做定位分析。
resource_track_cost：0	执行代价超过预值，才会被记录，建议保持默认值0。
resource_track_duration：1	实时TopSQL是否转储到历史TopSQL，默认值为60秒，建议设置为1。
resource_track_level：query/perf	语句级TopSQL信息记录到历史TopSQL的系统表中。
TopSQL_retention_time：30	TopSQL老化时间为30秒，建议保持默认值。
enable_track_record_subsql：按需开启	控制子查询是否记录到TopSQL系统表中。

TopSQL系统表关键字段：

字段	字段说明
username	用户名
block_time	排队时间，辅助定位CCN场景
Start_time	语句执行的开始时间
duration	语句执行时长，重点关注
Estimate_memory	估算内存，复制定位ccn排队或内存问题
Max_peak_memory	实际最大使用内存，定位内存不足场景
Max_spill_size	下盘大小
Unique_sql_id	归一化ID，标志同一语句/同一语句不同入参
Cpu_skew_percent	CPU倾斜情况
warning	自诊断信息

2. 实时TopSQL

系统提供了query级别和算子级别的资源监控实时视图来用于查询实时TopSQL。资源监控实时视图记录了查询作业运行时的资源使用情况（包括内存、下盘、CPU时间、IO等）以及性能告警信息。

实时视图具体的对外接口如下表所示：

视图级别	节点范围	查询视图
Query级别	当前CN	gs_wlm_session_statistics
	所有CN	pgxc_wlm_session_statistics
算子级别	当前CN	gs_wlm_operator_statistics
	所有CN	pgxc_wlm_operator_statistics

开启条件

必须要确保如下GUC参数设置：

use_workload_manager为on（默认为on）

enable_resource_track为on（默认为on）

resource_track_level为query或operator（默认为query）

监控作业类型为：

优化器估算的执行代价大于或等于resource_track_cost的取值的作业。
增删改查，包括使用explain analyze和explain performance来执行的场景。query级别视图还额外支持create table as语法。
重分布过程中的作业不统计。

Cgroups功能正常加载，可通过gs_cgroup -P查看控制组信息。

use_workload_manager为系统级参数，用于是否开启资源管理功能。
enable_resource_track为系统级参数，用于设置是否开启资源监控功能。
resource_track_level为session级参数，可以对某个session的资源监控级别进行灵活设置。

这两个参数的设置方法如下表：

enable_resource_track	resource_track_level	query级别信息	算子级别信息
on(default)	none	不统计	不统计
on(default)	query(default)	统计	不统计
on(default)	operator	统计	统计
off	none/query/operator	不统计	不统计

3. 历史TopSQL

系统提供了query级别和算子级别的资源监控历史视图用例查询历史TopSQL。资源监控历史视图记录了查询作业运行结束时的资源使用情况（包括内存、下盘、CPU时间、IO等）和运行状态信息（包括报错、终止、异常等）以及性能告警信息。但对于由于FATAL、PANIC错误导致查询异常结束时，状态信息列只显示aborted，无法记录详细异常信息。对于查询解析，优化阶段的状态信息则无法监控。

历史视图具体的对外接口如下表所示：

视图级别	节点范围	查询视图
Query级别	当前CN	历史（Database Manager接口）	gs_wlm_session_history
		历史（内部转储接口）	gs_wlm_session_info
	所有CN	历史（Database Manager接口）	pgxc_wlm_session_history
		历史（内部转储接口）	pgxc_wlm_session_info
算子级别	当前CN	历史（Database Manager接口）	gs_wlm_operator_history
		历史（内部转储接口）	gs_wlm_operator_info
	所有CN	历史（Database Manager接口）	pgxc_wlm_operator_history
		历史（内部转储接口）	pgxc_wlm_operator_info

开启条件

必须要确保如下GUC参数设置：

use_workload_manager为on （默认为on）

enable_resource_track为on （默认为on）

resource_track_level为query或operator（默认为query）

enable_resource_record为on（默认为off）

resource_track_duration小于作业执行时间（默认为60s）

监控作业类型为：

资源监控实时视图中记录的作业结束时的执行时间大于或等于resource_track_duration的作业。
优化器估算的执行代价大于或等于resource_track_cost的取值的作业

Cgroups功能正常加载，可通过gs_cgroup -P查看控制组信息。
该功能会引起存储空间膨胀及轻微性能影响，不建议生成系统默认使用。

三、TopSQL典型应用场景

1. 实时TopSQL

问题场景：某集群业务反馈某业务SQL偶发执行慢，该集群resource_track_duration设置较大，历史TopSQL中没有记录计划详情，需要定位原因。

处理过程：

① 系统管理员根据queryid查看等待视图，等待视图部分结果如下：

② 管理员执行explain verbose，得到的执行计划如下

③ 第8层非Stream算子，说明该计划不是正在执行语句的计划，使用实时TopSQL查看实际计划：

2. 历史TopSQL

问题场景：某客户由于内存规格较小，经常出现内存不可用的报错，云上运维人员通过autopilot定期巡检时发现该集群内存周期性冲高，且存在单实例内存使用倾斜的问题，需定位原因。

处理过程：

① 通过历史TopSQL找到内存占用高的语句

Select \* from pgxc_wlm_session_info where start_time >  '2023-10-30 10:05' and start_time < '2023-10-30 10:10' order by  max_peak_memory desc limit 100;

② 根据unique_sql_id确认作业的历史执行情况

3. 存储过程子语句

问题场景：某客户在业务中封装了大量的存储过程和匿名块脚本，用于业务系统的调度，随着业务数据越来越多，存储过程和匿名块脚本执行越来越慢，需要对其中的脚本进行优化。示例脚本如下：

处理过程：

① 查看历史TopSQL，存储过程和匿名块的query_plan字段显示NoPlan。

② 设置enable_track_record_subsql: on，该参数打开后可以记录存储过程和匿名块中的自语句和执行计划。

③ 重新执行慢的存储过程，根据query_id查看历史TopSQL中各个自语句的执行计划。

四、如何通过TopSQL进行信息统计

1. 常用TopSQL进行业务信息统计

① 识别stream数量多的语句：

select *,(length(query_plan) -  length(replace(query_plan, 'Streaming', ''))) / length('Streaming') as  stream_count FROM pgxc_wlm_session_info ORDER BY stream_count DESC limit 100;

② 识别内存占用高的语句：

select * from pgxc_wlm_session_info where start_time  > 'xxxx-xx-xx' and start_time < 'xxxx-xx-xx' order by  max_peak_memory desc limit 100;

③ 识别需要优化的语句：

select * from pgxc_wlm_session_info where start_time  > 'xxxx-xx-xx' and start_time < 'xxxx-xx-xx' and warning is not  null order by duration desc limit 100;

2. TopSQL使用注意事项

① 查询时使用start_time做条件，避免全表查询。

② 查询时使用limit对结果集大小限制，防止结果集过大导致客户端OOM。

总结

GaussDB 具备将瞬息万变的负载情况记录下来，提供回看数据库系统内部资源负载情况的能力，方便管理员对已经发生的问题做定位定界。
TopSQL收集的数据来源于数据库内部，为用户提供了实时监控数据库的能力。
TopSQL功能被用户广泛使用，是性能定位、劣化分析、审计回溯等重要的基石，为用户提供覆盖内存、耗时、IO、网络、空间等多方面的监控能力。在此基础上，内核也拓展出了异常规则等一些高阶用法，在日常使用中，用户可对TopSQL提出了更高的要求，比如记录子语句、记录语句类型、提升算子级别语句监控准确性等诸多建议。

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-07-10 14:10 华为云开发者联盟阅读(89) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· GaussDB(DWS)运维利刃：TopSQL工具解析

· 带你掌握数仓的作业级监控TopSQL

· GaussDB技术解读系列：运维自动驾驶探索

· GaussDB技术解读系列：性能调优

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业

历史上的今天：
2023-07-10 共探AI大模型时代下的挑战与机遇，华为云HCDE与大模型专家面对面
2023-07-10 华为云开发者联盟助力培养数字化人才，加速应用构建质效提升
2023-07-10 10个安全问题带你了解OWASP 定义的大模型应用
2023-07-10 Stable Diffusion AIGC：3步成为P图大师
2020-07-10 C语言编程需要掌握的核心要点有哪些? 编程大神为你总结了这20个
2020-07-10 技术实操丨使用ModelArts和HiLens Studio完成云端验证及部署
2020-07-10 【DevCloud · 敏捷智库】两种你必须了解的常见敏捷估算方法

公告

昵称：华为云开发者联盟
园龄： 4年9个月
粉丝： 855
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决

一、TopSQL简介

1. 什么是TopSQL？

2. 怎么实现TopSQL功能？

二、TopSQL系统表和参数介绍

1. 公共GUC参数

2. 实时TopSQL

开启条件

3. 历史TopSQL

开启条件

三、TopSQL典型应用场景

1. 实时TopSQL

2. 历史TopSQL

3. 存储过程子语句

四、如何通过TopSQL进行信息统计

1. 常用TopSQL进行业务信息统计

2. TopSQL使用注意事项

总结

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论