Mongodb查询缓慢问题处理

早上突然收到配置中心服务告警，Http check出现问题，赶紧访问下服务看看是否Cabot监控系统的误报，发现服务时而正常，时而出现500内部服务器错误，赶紧排查问题。

1、问题定位

首先看看当前配置中心的总体上报statsd请求量是否出现飙升：

确实负载上来了，先看看应用服务器有没有报错，再确定是应用服务问题，还是数据库的问题：

tail -f logs/log.log

应用服务器出现了一堆”no reachable servers”的报错，那么说明要么是数据库挂掉了，要么是出于各种原因无响应。

那就登录到几台数据库服务器上面，看看Mongodb进程，发现进程都还在的，那么再看看master上面的数据库日志：

ps -ef | grep mongo

发现日志里面出现了一堆的too many open connections: 819这样的错误。

Mongodb默认的最大连接数是819，当连接数到达819后，就无法增加，那么新的请求就无法再连接上去了。

OK，感觉问题很清晰了，时而正常时而出现500错误的原因，是因为请求量上来以后，旧的数据库连接还没有释放，新的又创建了，导致触碰到Mongodb的最大连接数限制。

2、问题处理

那么做两个方面的调整：

1）Mongodb数据库的最大连接数改大到20000（Mongodb允许的最大的连接数是20000），避免再次出现最大连接数限制：

vim mongodb.conf
添加：
maxConns=20000

2）在应用里面设置poolLimit，让mgo尽量多地复用现存的数据库连接，不要再无限制地增加Mongodb连接了，先设置为单个服务器最大200个连接。

Mgo里面，由于我的Mongodb集群是复制集，无法直接在mongodb的数据库连接uri里面像这样添加：

mongodb://xx:xx@10.xx.xx.xx:27017/index-config?maxPoolSize=10

因为我的复制集连接是这样的：

mongodb://xx:xx@172.19.8.76:27017,172.19.8.77:27017,172.19.9.76:27017,172.19.9.77:27017/index-config?replicaSet=configrs

查下Mgo的官方文档，看看怎么设置最大连接池数量限制，找到一项SetPoolLimit：

http://godoc.org/gopkg.in/mgo.v2#Session.SetPoolLimit

SetPoolLimit sets the maximum number of sockets in use in a single server before this session will block waiting for a socket to be available. The default limit is 4096.

这里面写道，默认情况下，Mgo的最大连接数限制是4096，那么当然高过Mongodb默认的最大819限制了，添加限制，先设置为200：

Session.SetPoolLimit(200)

都改好，重启服务，感觉又要解决一个问题了~

3、出现新的问题

打包、重新部署服务，重新刷新服务，恢复正常。

然而，没过1分钟，又收到告警邮件，看下服务，失败量比之前还多：

纳尼？！难道处理问题的姿势不对？赶紧看看Mongodb 的master服务日志：

tail -f logs/mongodb.log

4、继续排查问题

看到日志里面频繁出现大量的Debug 跟Info级别的COMMAND，那么估计是我的日志级别开的不对，先调整下日志级别，关闭Debug级别的各项输出：

/usr/local/mongodb/bin/mongo mongodb://xxx:xxx@172.19.8.76:27017,172.19.8.77:27017,172.19.9.76:27017,172.19.9.77:27017/admin?replicaSet=configrs

db.setLogLevel(0)

Mongodb里面，LogLevel分为0-5，其中0表示仅开启Info级别日志，1-5表示Debug级别日志的打印数量，数字越大，打印的越多。

继续查问题。先看看服务器状态：

top下看看CPU、负载、内存使用率，这不看不知道，一看吓了一大跳，CPU使用率居然高达96%，基本都被Mongodb占用了，而服务器负载高达几百，内存使用率却还剩下许多（紧急地处理问题，没有截图，宝贵的Top结果已经找不到了），说明当前的服务瓶颈出现在CPU。

首先分析是不是频繁的IO导致服务器CPU消耗过大：

iostat

看到IO并不是CPU高占比的原因。

重新分析一遍问题，先前是时而正常时而有问题，现在的问题比之前更频繁得多，那么跟第一次修复的连接数肯定有一定关系。

用mongostat看看服务：

/usr/local/mongodb/bin/mongostat --username=xxx --password=xxx --authenticationDatabase=admin

访问情况基本是正常的。

进入Mongodb看看数据库连接数：

db.serverStatus().connections

连接数也正常。

再看看网络状态，Establish状态的是否很多：

netstat -anp | grep ESTABLISHED

看到应用服务器确实是有正在处理的连接请求，那么结合上下文，判断应该是由于限制了最大单台机器200个连接，而申请的速度比释放的速度快，导致了大量请求阻塞在连接释放的地方，导致超时报错。

开启数据库慢查询看看：

db.setProfilingLevel(1,200)

db.system.profile.find()

打印出大量的慢查询请求，集中在直接查询用户信息的user_config集合上面。

配置中心的请求分为两种，一种是全局统一数据，通过用户的不同APP版本，IMEI等信息范围相应数据的灰度版本控制，或者APP配置信息等数据，一种是用户相关，每个用户各自读写信息的数据。

前一种数据使用的是缓存机制，用户的请求命中的基本都是缓存；第二种数据太多，无法采用缓存，因此直接读写DB，当前来说，也即是user_config集合。

大量慢查询请求出现在user_config上，说明查询过慢，但IO明显不是瓶颈。

这时候我突然想到原本计划上线时候需要做，但还没做的索引，赶紧补充上去：

db.user_config.ensureIndex({"portal_id":1})

因为每次用户查询的索引值都是portal_id，所以仅需要对portal_id做索引。

为防止自己忘记，在代码里面也添加自动索引的内容：

func init() {
    db := mongodb.ConnectMongo()
    defer db.Session.Close()
    index := mgo.Index{
        Key: []string{"portal_id"},
    }
    db.C(CollectionUserConfig).EnsureIndex(index)
}

Mongodb里面，如果不添加索引，对Mongodb数据表进行查询操作的时候，需要把数据都加载到内存。当数据的数量达到几十万乃至上百万的时候，这样的加载过程会对系统造成较大的冲击，并影响到其他请求的处理过程。

用户表当前的记录数量已经达到45万，每次都加载这么多数据，查询起来肯定是非常慢的。建立索引以后对索引字段进行查询时，仅会加载索引数据，能极大地提高查询速度。

添加索引以后，很快收到了服务恢复的邮件：

配置中心 RECOVERY.

再访问服务，正常了！

本文引用：https://chen-kaka.github.io/problems/2017/08/21/Mongodb%E6%9F%A5%E8%AF%A2%E7%BC%93%E6%85%A2%E9%97%AE%E9%A2%98%E5%A4%84%E7%90%86/

posted @ 2018-01-04 11:15 单先生阅读(32064) 评论(0) 编辑收藏举报

刷新页面返回顶部

单先生

Mongodb查询缓慢问题处理

公告