OceanBase数据库业务大量断链分析
今天下午三点左右收到业务告警,批量业务发生断链 "数据库连接异常,次数:35,统计周期:5 分钟" 业务反馈具体的地市出现问题后,通过ocp发现问题时间段的SQL相应时间最多的是update相关操作
通过ocp中的SQL诊断功能发现问题时间点的可疑SQL排序第一的SQL为一个update
通过gv$sql_audit视图来查看该SQL的一些详细信息,发现该SQL出现了大量的锁重试
结合数据库之前专项整改中,调整过锁等待超过六十秒后台自动kill等待回话,判断业务断链是因为更新重复数据等待超时导致
后面业务也提供了业务断链的相关SQL,和上述分析定位到的SQL一致