Mongo Cursor

简介

在使用 Java 对数据库进行连接时，都会获取到一个 cursor ，cursor 实际指到的是我们查询数据库的query，而并不是 query 查询到的数据集。

此次在使用 mongo 的 cursor 的过程中，对线上数据库产生了很大压力，在这里对此次的优化过程进行记录。

场景

数据源：Mongo 数据库 4台服务器 4000+表总共3亿+数据量

背景介绍：即将建立大数据平台，需要将数据源的数据导入到 hbase 中，分为历史数据导入和实时 opLog 数据导入两部分

方案：

多线程历史数据导入
多线程实时数据导入

问题描述：

导入的数据占据资源
1. 硬盘资源计算需要占用的硬盘资源，事先确认硬盘资源是否充足
2. CPU 确认运行脚本的服务器处于半空闲状态
3. 内存运行jar包时的脚本配置内存即可
对线上数据库的连接没有释放，导致线上数据库压力
1. 历史数据导入时，每个线程都会新建连接，之后关闭 #可能没有关闭
2. 实时数据导入时，轮询产生连接，但是关闭时间较长，导致的连接数增长 #关闭时长较长

解决方法：

历史数据导入时的每个线程所建立的连接，修改逻辑，使其一定被关闭
实时数据导入时的每个线程的读取 opLog 的 cursor ，使其保持活性
创建连接池，确保连接数在一定时间内

知识点

cursor

cursor的获取：find() 方法返回的是一个 FindIterable 对象，对此对象的控制即可对 cursor 的属性进行控制，根据FindIterable获取一个Cursor 。

1）batchSize(int size)：每次网络请求返回的document条数，比如你需要查询500条数据，mongodb不会一次性全部load并返回给client，而是每次返回batchSize条，遍历完之后后再通过网路IO获取直到cursor耗尽。默认情况下，首次批量获取101个document或者1M的数据，此后每次4M，当然我们可以通过此方法来覆盖默认值，如果文档尺寸较小，则建议batchSize可以大一些。

2）skip(int number)、limit(int number)：同SQL中的limit字句，即表示在符合匹配规则的结果集中skip一定数量的document，并最终返回limit条数据。可以实现分页查询。

3）maxTime(int time,TimeUnit unit)：表示此次操作保持的最长时间，即server端保持cursor状态的最长时间，如果超时server端将移除此cursor，即再次通过此cursor遍历数据将会error。

4）sort(Bson bson)：根据指定field排序，参与排序的字段最好是索引，如果不是，将会在内存中排序，如果参与排序的数据尺寸大于32M，将会抛出error。1表示正序，-1表示倒叙，比如"age":1表示按照age正序排序。

5）noCursorTimeout(boolean timeout)：如果cursor空闲一定时间后（10分钟），server端是否将其移除，默认为false，即server会将空闲10分钟的cursor移除以节约内存。如果为true，则表示server端不需要移除空闲的cursor，而是等待用户手动关闭。无论如何，开发者都需要注意，手动关闭cursor。

6）partial(boolean partial)：对于sharding集群，如果一个或者多个shard不可达，是否允许返回部分数据（只从正常的shard中获取数据）。

7）cursorType()：指定cursor类型，当cursor遍历完毕后是否关闭cursor，默认是关闭，无论何时都建议手动关闭cursor（不管是否耗尽curosr）；当然有些开发场景可能需要保持cursor的活性，遍历到cursor的最后一条后，不关闭cursor，继续等待，此后一段时间内如果有新数据插入到cursor之后，则可以继续遍历，这就是Tailable Cursor，通常对于Capped Collection中使用。目前支持支持3种类型的Cursor：NonTailable、Tailable、TailableAwait。

8）projection(Bson bson)：限定返回结果中需要包含的filed或者数组元素。在6）中我们已经看到相关的几个例子。默认情况下，将会返回document的所有字段，1表示包含，0表示不包含。

连接池

Mongo Client本身即是一个连接池，有默认参数，也可以自己设置参数，建议全局使用同一个mongo的client实例。

NOTE: 连接池里的连接数 = ConnectionsPerHost * threadsAllowedToBlockForConnectionMultiplier

参数说明：来自于http://api.mongodb.com/java/3.2/

com.mongodb

Class MongoClientOptions.Builder

参数名	默认参数值	参数说明
ConnectionsPerHost	100	设置每台主机的最大连接数
Description	null
RequiredReplicaSetName	null	设置群集所需的副本集名称
ConnectTimeout	10000	设置连接超时
HeartbeatConnectTimeout	20000	设置用于群集心跳的连接的连接超时
HeartbeatFrequency	10000	设置心跳频率。这是驱动程序尝试确定群集中每个服务器当前状态的频率。默认值为10，000毫秒
HeartbeatSocketTimeout	20000	设置用于群集心跳的连接的套接字超时
LocalThreshold	15	设置本地阈值
MaxConnectionIdleTime	0	设置池连接的最大空闲时间
MaxConnectionLifeTime	0	设置池连接的最长生存期
MaxWaitTime	120000	设置线程阻塞等待连接的最长时间
MinConnectionsPerHost	0	设置每台主机的最小连接数
MinHeartbeatFrequency	500	设置最小心跳频率。如果驱动程序必须频繁地重新检查服务器的可用性，它至少会在上次检查后等待这么长时间，以避免浪费精力。默认值为500毫秒
ServerSelectionTimeout	30000	以毫秒为单位设置服务器选择超时，这定义了驱动程序在引发异常之前等待服务器选择成功的时间。值0表示如果没有服务器可用，它将立即超时。负值意味着无限期等待。
SocketTimeout	0	设置socket超时
threadsAllowedToBlockForConnectionMultiplier	5	设置允许阻塞等待连接的线程数的乘数。
socketKeepAlive		设置是否启用套接字保持活动
sslEnabled		设置是否使用SSL。将此设置为true也会将SocketFactory设置为sLSocketFactory。GetDefault ( )并将此设置为false会将SocketFactory设置为SocketFactory。GetDefault ( )
sslInvalidHostNameAllowed		定义是否允许无效主机名。默认为false。在将此设置为真之前要小心，因为这会使应用程序容易受到中间人攻击
readPreference		设置读取首选项
writeConcern		设置写入关注点。
readConcern		设置读取关注点。
codecRegistry		设置编解码器注册表请注意，DB和DBCollection的实例不使用注册表，因此无需在注册表中包含DBObject的编解码器。
addCommandListener		添加给定的命令侦听器。
socketFactory		设置socket工厂。
cursorFinalizerEnabled		设置是否启用游标终结器
alwaysUseMBeans		设置驱动程序注册的JMX Beans是否应该始终是MBean，而不管VM是Java 6还是更高版本。如果为false，如果虚拟机为Java 6或更高版本，驱动程序将使用MXBeans，如果虚拟机为Java 5，则使用mbean。
dbDecoderFactory		设置解码器工厂
dbEncoderFactory		设置编码器工厂
legacyDefaults		将默认值设置为MongoOptions中的值

posted @ 2018-11-28 17:49 枫子_dan 阅读(4254) 评论(0) 收藏举报

刷新页面返回顶部

枫子

Try Again

Mongo Cursor

简介

场景

知识点

cursor

连接池

公告