现象:
触发这个bug,你会得到类似于以下的MongoDB错误日志
Fri Sep 28 06:37:21 [initandlisten] connection accepted from xx.xx.xx.xx:64034 #1073 (1014 connections now open)
Fri Sep 28 06:37:21 [initandlisten] pthread_create failed: errno:11 Resource temporarily unavailable
Fri Sep 28 06:37:21 [initandlisten] can't create new thread, closing connection
直接原因是驱动创建了过多的数据库连接。对于Linux系统来说,一个用户最多能创建的进程数是
ulimit -u
也就是说如果连接数接近(注意是接近,不会达到的,因为不是所有进程都用来创建连接了)这个值,就会看到以上这些错误。
同时,在.NET端也会相应地看到错误日志:
an existing connection was forcibly closed by the remote host mongodb
另外会伴有错误日志
Unable to read data from the transport connection: A connection attempt failed because the connected part did not properly respond after a period of time, or established connection failed because connected host as failed to respond
原因:
导致这个问题的罪魁祸首是MongoDB .NET Driver 1.1的一个Bug,具体描述见官方的JIRA:
大致是说,MongoDB Driver 1.1.0.4184在管理连接池的时候有一个错误的决策,当发现其中一个连接出问题的时候,会放弃所有的连接,而不单是出问题的那个。而关闭连接在驱动中被设计为一个异步操作,在后台进行。所以如果应用在高并发环境中,就会出现驱动一边大量创建连接,一边尝试关闭所有连接的情况。极端情况下可能造成创建的速度比关闭要快,因此连接数不旦不减少还会不断增多,同时服务器负载大量增加。当连接数达到最大进程数限制时,MongoDB便不能再继续创建新连接,而出现上面的错误。
解决方案:
更新驱动程序……
目前的最新版本是1.6,GIT上已经有了2.0的分支。注意新的驱动和1.1不完全兼容,更新过程需要花费一定时间保证代码正确性。实际上此问题在1.2时即被修复,因此如果不想有过多的改动,可以尝试只更新到1.2版本来解决这个问题。但后续版本实际也修复了很多问题,因此建议有精力的团队尽量使用最新版本的驱动。
一点后话:
开源项目就是这样,有闪光的地方但也有自己的瑕疵。毕竟它是免费的东西,但天下没有免费的午餐,免费的代价就是需要自己解决问题。
好在像MongoDB这样活跃项目有一个非常Nice的社区,在我提出这个问题后半天时间就有人耐心回答并仔细讲解,夫复何求?