Unable to connect to a member of the replica set matching the read preference Primary
今天尝试使用MongoDB Replica Set提供的自动故障恢复功能一直无法成功,总是遇到上面这个错误。好一顿整终于找到的原因,由于这里还比较有迷惑性,特此记录一下供其他人参考。
其实Google一下这个错误,在前几条结果中就有答案,但是该死的GFW屏蔽了Google Group,导致我跳过了那条结果而一直没有找到正确答案,我可以骂脏话吗?
进入正题,我们知道使用Replica Set是要在连接字符串中加入所有结点的地址(建议这么做,但并不是强制。关于连接字符串参考这里)。以我为机器为例,我的Windows在虚拟机192.168.122.100上,MongoDB运行在物理机192.168.122.1中的三个实例上,分别是:
192.168.122.1:27017 192.168.122.1:27011 192.168.122.1:27012
因此我的连接字符串大概会是这个样子(ReplicaSet为rs0):
mongodb://192.168.122.1,192.168.122.1:27011,192.168.122.1:27012/Cart?replicaSet=rs0
然后我到MongoDB的实例上建立了Replica Set:
yaoxing@YX-ARCH ~ $ mongo localhost MongoDB shell version: 2.4.8 connecting to: test >rs.initiate()
然后尝试把其他两个实例添加到Replica Set中:
rs.add("localhost:27011"); rs.add("localhost:27012");
发生了错误:
{ "errmsg" : "exception: can't use localhost in repl set member names except when using it for all members", "code" : 13393, "ok" : 0 }
最容易想到的就是把localhost更换成机器名了,于是
rs.add("YX-ARCH:27011")
rs.add("YX-ARCH:27012")
成功,一切看起来都很美好,但其实问题就已经在这里发生了。如果尝试关闭Primary,就会有另外一个实例从Secondary变为Primary,这点没有问题。但客户端始终会抛出本文开头那个异常,无法自动切换到新的Primary上。原因如下:
如果仔细看MongoDB的文档,你会发现其实在连接字符串中写进所有的结点并不是必要的,但如果只写一个结点的话,必须要加上?replicaSet=[set name]参数(原因参考文档)。为什么可以只写一个结点?因为当Driver连接上一个结点之后会从该结点获取其他结点的信息,这样做是为了以后动态添加新结点的时候Driver可以从结点信息中自动识别,而不必每次都修改连接字符串。当然如果只写一个结点的话,坏处就是当这个结点挂了的时候Driver就不知道去哪找其他结点的信息了。
由此我们可以发现,有几台服务器并不是从你的连接字符串中发现的,而是当Driver连接上某一台服务器后,从中获取的。所以从以上的例子中获取了什么东西?
rs0:PRIMARY> rs.conf() { "_id" : "rs0", "version" : 7, "members" : [ { "_id" : 0, "host" : "YX-ARCH:27017", "priority" : 20 }, { "_id" : 1, "host" : "YX-ARCH:27011", "priority" : 30 }, { "_id" : 2, "host" : "YX-ARCH:27012", "priority" : 20 } ] }
一共三个HOST
YX-ARCH YX-ARCH:27011 YX-ARCH:27012
明眼人应该看出来了,YX-ARCH这个东西在我的虚拟机中不存在,因此C# Driver发现连接字符串最终无法连接到成为新Primary的YX-ARCH:27011,而唯一可以连接的192.168.122.1是Secondary身份,我又没有指定readPreference,因此不可读。悲剧就这么发生了。
当然知道了原因,解决方案也很简单:
在replica set中和连接字符串中使用相同的HOST地址就可以完美解决问题
希望对遇到同样问题的人有所帮助。