KingbaseES V8R3集群运维案例之---备库数据库意外down分析

案例说明:
KingbaseES V8R3集群,备库数据库服务down,需要分析备库数据库服务意外down的原因。

适用版本:
KingbaseES V8R3

一、日志分析
1、查看主库(node11) cluster.log,在23:06左右,收到failover request,判断备库(node12)数据库服务down

2、查看备库(node12) cluster.log,在23:06左右,收到failover request,判断备库(node12)数据库服务down

3、在备库recovery.log获取到23:05,备库recovery过程通过ksql远程通过vip连接主库查询集群状态失败。

4、因为上一次recovery失败,备库在23:06启动sys_rewind执行备库的recovery,在recovery过程将会导致备库数据库服务重启。

5、备库sys_log日志显示,在23:06左右收到fast shutdown的请求,导致数据库服务重启。

二、分析总结
从多次23:00后的时间,备库数据库服务重启分析,备库在23:05左右,通过crond调用执行recovery时,如下图所示,通过ksql连接vip检测集群状态失败,从而触发下次recovery调用sys_rewind执行恢复,导致备库数据库服务重启。

结合这一时间段,有物理备份的任务启动,有可能是因为网络I/O负载较大,导致ksql连接vip失败,或者主库此时负载较大,在响应备库的ksql连接超时,导致recovery失败。
可以尝试调整ksql连接中的timeout,防止因网络阻塞或主库负载导致ksql连接超时。

posted @   天涯客1224  阅读(4)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
点击右上角即可分享
微信分享提示