mongodb监听oplog时发生的一个问题处理

1月底上线时,遇到一个问题,3.0任务创建,没有同步到4.0的表中。之前团队小伙伴做了监听oplog操作。

 

原因剖析:

1、oplog监听应该是监听了有问题的从节点,所以没有监听到

2、从节点为什么出问题。继续往下看

1)可以先查看下述链接,关于mongo的此问题的bug描述:https://jira.mongodb.org/browse/SERVER-30939

 

2)mongo的从节点不可用是因为在不停的创建索引。如果数据跟索引全部同步完成了,从节点是可以恢复的。

 

问题触发条件:对很多个集合后台创建索引,mongo会进入一种状态,其中一个或多个“repl index builder”线程会无限循环,从而一次又一次地重复创建索引。关键是,这个不是必现,多做测试可以出现。

 

3)风险:

这个问题需要尽快解决,不然会是一个大问题。如果这时主节点失效,发生切换,数据同步延迟,会导致数据丢失

 

4)解决思路:不要同时对多个集合后台创建索引。

 

5)解决方法:

方法一:项目中是遍历集合,创建索引的间隙做适当的sleep操作

 

方法二:是否创建索引做判断。

经排查创建索引的集合中,有很多只有几十、几百条数据。数据量较小,创建索引没意义。所以,可以对超出一万条记录的集合创建索引。这样能减少创建索引的操作次数

 

方法三:mongo3.6之后解决了这个问题,可以升级到4.0+版本,4.0相较于3.6,change stream有变化。

 

3、问题严重性:

这个问题,每天4点定时任务索引创建,连续观察三天,都是从库到9:30-10:20左右才完全恢复可用。所以不得不改了。还好10:30之前创建3.0任务这个操作较少。所以问题反馈的不多。

 

4、实践验证

因为升级4.0还要做业务适配,还要做数据迁移及验证,且赶在过年前了。所以用了解决方法的前两个方法操作。创建索引那里修改并上线。观察几天此问题没有再次出现。

 

posted @ 2021-02-03 22:42  mabiao008  阅读(310)  评论(0编辑  收藏  举报