KingbaseES V8R3集群运维案例之---备库数据库意外down分析

案例说明:
KingbaseES V8R3集群,备库数据库服务down,需要分析备库数据库服务意外down的原因。

适用版本:
KingbaseES V8R3

一、日志分析
1、查看主库(node11) cluster.log,在23:06左右,收到failover request,判断备库(node12)数据库服务down

2、查看备库(node12) cluster.log,在23:06左右,收到failover request,判断备库(node12)数据库服务down

3、在备库recovery.log获取到23:05,备库recovery过程通过ksql远程通过vip连接主库查询集群状态失败。

4、因为上一次recovery失败,备库在23:06启动sys_rewind执行备库的recovery,在recovery过程将会导致备库数据库服务重启。

5、备库sys_log日志显示,在23:06左右收到fast shutdown的请求,导致数据库服务重启。

二、分析总结
从多次23:00后的时间,备库数据库服务重启分析,备库在23:05左右,通过crond调用执行recovery时,如下图所示,通过ksql连接vip检测集群状态失败,从而触发下次recovery调用sys_rewind执行恢复,导致备库数据库服务重启。

结合这一时间段,有物理备份的任务启动,有可能是因为网络I/O负载较大,导致ksql连接vip失败,或者主库此时负载较大,在响应备库的ksql连接超时,导致recovery失败。
可以尝试调整ksql连接中的timeout,防止因网络阻塞或主库负载导致ksql连接超时。

posted @ 2023-11-07 11:55  天涯客1224  阅读(2)  评论(0编辑  收藏  举报