脑裂

https://my.oschina.net/u/236698/blog/525413

万事皆有因

最近IM云平台也好，社交应用也好，大量的使用ejabberd的厂商涌现出来了。不过所有使用ejabberd厂商可能都会遇到Mnesia脑裂的问题。在这里打算简单的谈谈脑裂这个事情。

什么是脑裂

我在这里面给个非官方的定义吧。当一个集群的不同部分在同一时间都认为自己是活动的时候，我们就可以将这个现象称为脑裂症状。我们当如何理解这句话呢？

首先我们需要是个集群。
其次当中有业务是Master－Backup模式或双星模式。也就是说当主节点挂掉了，备用节点需要接管业务或者是两个节点直接有数据同步。

让我们举个例子（图片来自https://blog.process-one.net/angie_introducing_flexarch/）：

其中ejabberd front是不存在Router的，只有Client Manager。而ejabberd back是具有Message router 的。那么我们可以将这个图简单的抽象为这样的：

UserA和UserB分别将自己的信息注册在RouterA和RouterB中。RouterA和RouterB使用数据同步（2PC），来同步信息。那么当UserA想要向UserB发送一个消息的时候，需要现在RouterA中查询出UserA到UserB的消息路由路径，然后再交付给相应的路径进行路由。

当脑裂发生的时候，相当RouterA和RouterB直接的联系丢失了，RouterA认为整个系统中只有它一个Router，RouterB也是这样认为的。那么相当于RouterA中没有UserB的信息，RouterB中没有UserA的信息了，此时UserA再发送消息给UserB的时候，RouterA会认为UserB已经离线了，然后将该信息进行离线持久化。

说到这里面估计大家已经明白了脑裂是什么东西了。

怎么解决

paxos算法，使用奇数性质的节点来进行表决，必须选出一个说的算的老大，这个集群才能正常工作。
双星模式下，使用专线直连，从硬件上保障。
使用额外的探测节点，当双方直连断开之后，使用一个约定好的共同节点来探测是否是直连故障。

posted @ 2017-02-28 15:57 aspirant 阅读(450) 评论(0) 收藏举报

刷新页面返回顶部