随笔- 320 文章- 0 评论- 5 阅读- 34799

KingbaseES V8R3集群运维案例之---备库数据库意外down分析

案例说明：
KingbaseES V8R3集群，备库数据库服务down，需要分析备库数据库服务意外down的原因。

适用版本：
KingbaseES V8R3

一、日志分析
1、查看主库（node11） cluster.log，在23:06左右，收到failover request，判断备库（node12）数据库服务down

2、查看备库（node12） cluster.log，在23:06左右，收到failover request，判断备库（node12）数据库服务down

3、在备库recovery.log获取到23:05，备库recovery过程通过ksql远程通过vip连接主库查询集群状态失败。

4、因为上一次recovery失败，备库在23:06启动sys_rewind执行备库的recovery，在recovery过程将会导致备库数据库服务重启。

5、备库sys_log日志显示，在23:06左右收到fast shutdown的请求，导致数据库服务重启。

二、分析总结
从多次23:00后的时间，备库数据库服务重启分析，备库在23:05左右，通过crond调用执行recovery时，如下图所示，通过ksql连接vip检测集群状态失败，从而触发下次recovery调用sys_rewind执行恢复，导致备库数据库服务重启。

结合这一时间段，有物理备份的任务启动，有可能是因为网络I/O负载较大，导致ksql连接vip失败，或者主库此时负载较大，在响应备库的ksql连接超时，导致recovery失败。
可以尝试调整ksql连接中的timeout，防止因网络阻塞或主库负载导致ksql连接超时。

posted @ 2023-11-07 11:55 天涯客1224 阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· KingbaseES V8R6集群运维案例之---备库数据库服务意外down分析

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」

昵称：天涯客1224
园龄： 3年9个月
粉丝： 25
关注： 1

2025年3月

日

一

二

三

四

五

六

天涯客1224