MongoDB Sharding Cluster 分片集群搭建及使用
1.1 规划
10个实例:38017-38026 (1)configserver:38018-38020 3台构成的复制集(1主两从,不支持arbiter)38018-38020(复制集名字configsvr) (2)shard节点: sh1:38021-23 (1主两从,其中一个节点为arbiter,复制集名字sh1) sh2:38024-26 (1主两从,其中一个节点为arbiter,复制集名字sh2) (3) mongos: 38017
1.2 Shard节点配置过程
1.2.1 目录创建:
mkdir -p /mongodb/38021/conf /mongodb/38021/log /mongodb/38021/data mkdir -p /mongodb/38022/conf /mongodb/38022/log /mongodb/38022/data mkdir -p /mongodb/38023/conf /mongodb/38023/log /mongodb/38023/data mkdir -p /mongodb/38024/conf /mongodb/38024/log /mongodb/38024/data mkdir -p /mongodb/38025/conf /mongodb/38025/log /mongodb/38025/data mkdir -p /mongodb/38026/conf /mongodb/38026/log /mongodb/38026/data
1.2.2 修改配置文件:
第一组复制集搭建:21-23(1主 1从 1Arb)
cat > /mongodb/38021/conf/mongodb.conf <<EOF systemLog: destination: file path: /mongodb/38021/log/mongodb.log logAppend: true storage: journal: enabled: true dbPath: /mongodb/38021/data directoryPerDB: true #engine: wiredTiger wiredTiger: engineConfig: cacheSizeGB: 1 directoryForIndexes: true collectionConfig: blockCompressor: zlib indexConfig: prefixCompression: true net: bindIp: 10.0.0.51,127.0.0.1 port: 38021 replication: oplogSizeMB: 2048 replSetName: sh1 # 复制集的名称, 自定义. sharding: clusterRole: shardsvr # 定义该复制集在集群中的角色是shard server, 保留字. processManagement: fork: true EOF \cp /mongodb/38021/conf/mongodb.conf /mongodb/38022/conf/ \cp /mongodb/38021/conf/mongodb.conf /mongodb/38023/conf/ sed 's#38021#38022#g' /mongodb/38022/conf/mongodb.conf -i sed 's#38021#38023#g' /mongodb/38023/conf/mongodb.conf -i
第二组节点:24-26(1主1从1Arb)
cat > /mongodb/38024/conf/mongodb.conf <<EOF systemLog: destination: file path: /mongodb/38024/log/mongodb.log logAppend: true storage: journal: enabled: true dbPath: /mongodb/38024/data directoryPerDB: true wiredTiger: engineConfig: cacheSizeGB: 1 directoryForIndexes: true collectionConfig: blockCompressor: zlib indexConfig: prefixCompression: true net: bindIp: 10.0.0.51,127.0.0.1 port: 38024 replication: oplogSizeMB: 2048 replSetName: sh2 # 自定义的复制集名称 sharding: clusterRole: shardsvr # 定义的复制集在集群中的角色, 固定值; processManagement: fork: true EOF \cp /mongodb/38024/conf/mongodb.conf /mongodb/38025/conf/ \cp /mongodb/38024/conf/mongodb.conf /mongodb/38026/conf/ sed 's#38024#38025#g' /mongodb/38025/conf/mongodb.conf -i sed 's#38024#38026#g' /mongodb/38026/conf/mongodb.conf -i
1.2.3 启动所有节点,并搭建复制集
mongod -f /mongodb/38021/conf/mongodb.conf mongod -f /mongodb/38022/conf/mongodb.conf mongod -f /mongodb/38023/conf/mongodb.conf mongod -f /mongodb/38024/conf/mongodb.conf mongod -f /mongodb/38025/conf/mongodb.conf mongod -f /mongodb/38026/conf/mongodb.conf ps -ef |grep mongod mongo --port 38021 use admin config = {_id: 'sh1', members: [ {_id: 0, host: '10.0.0.51:38021'}, {_id: 1, host: '10.0.0.51:38022'}, {_id: 2, host: '10.0.0.51:38023',"arbiterOnly":true}] } rs.initiate(config) mongo --port 38024 use admin config = {_id: 'sh2', members: [ {_id: 0, host: '10.0.0.51:38024'}, {_id: 1, host: '10.0.0.51:38025'}, {_id: 2, host: '10.0.0.51:38026',"arbiterOnly":true}] } rs.initiate(config)
1.3 config节点配置
1.3.1 目录创建
mkdir -p /mongodb/38018/conf /mongodb/38018/log /mongodb/38018/data mkdir -p /mongodb/38019/conf /mongodb/38019/log /mongodb/38019/data mkdir -p /mongodb/38020/conf /mongodb/38020/log /mongodb/38020/data
1.3.2修改配置文件:
cat > /mongodb/38018/conf/mongodb.conf <<EOF systemLog: destination: file path: /mongodb/38018/log/mongodb.conf logAppend: true storage: journal: enabled: true dbPath: /mongodb/38018/data directoryPerDB: true #engine: wiredTiger wiredTiger: engineConfig: cacheSizeGB: 1 directoryForIndexes: true collectionConfig: blockCompressor: zlib indexConfig: prefixCompression: true net: bindIp: 10.0.0.51,127.0.0.1 port: 38018 replication: oplogSizeMB: 2048 replSetName: configReplSet # 自定义的复制集名称 sharding: clusterRole: configsvr # 复制集在集群中的角色, 即config server processManagement: fork: true EOF \cp /mongodb/38018/conf/mongodb.conf /mongodb/38019/conf/ \cp /mongodb/38018/conf/mongodb.conf /mongodb/38020/conf/ sed 's#38018#38019#g' /mongodb/38019/conf/mongodb.conf -i sed 's#38018#38020#g' /mongodb/38020/conf/mongodb.conf -i
1.3.3启动节点,并配置复制集
mongod -f /mongodb/38018/conf/mongodb.conf mongod -f /mongodb/38019/conf/mongodb.conf mongod -f /mongodb/38020/conf/mongodb.conf mongo --port 38018 use admin config = {_id: 'configReplSet', members: [ {_id: 0, host: '10.0.0.51:38018'}, {_id: 1, host: '10.0.0.51:38019'}, {_id: 2, host: '10.0.0.51:38020'}] } rs.initiate(config) 注:configserver 可以是一个节点,官方建议复制集。configserver不能有arbiter。 新版本中,要求必须是复制集。 注:mongodb 3.4之后,虽然要求config server为replica set,但是不支持arbiter
1.4 mongos节点配置:
1.4.1创建目录:
mkdir -p /mongodb/38017/conf /mongodb/38017/log
1.4.2配置文件:
cat > /mongodb/38017/conf/mongos.conf <<EOF systemLog: destination: file path: /mongodb/38017/log/mongos.log logAppend: true net: bindIp: 10.0.0.51,127.0.0.1 port: 38017 sharding: configDB: configReplSet/10.0.0.51:38018,10.0.0.51:38019,10.0.0.51:38020 # 指定的那个config server复制集的ip processManagement: fork: true EOF
1.4.3启动mongos
mongos -f /mongodb/38017/conf/mongos.conf
1.4.4 此时分片集群的准备工作做好了, 但是集群仍然没有搭建成功, config server也感知不到那两个shard server复制集
还需执行以下操作来完成分片集群的搭建.
1.5 分片集群添加节点
连接到其中一个mongos(10.0.0.51),做以下配置 (1)连接到mongs的admin数据库 # su - mongod $ mongo 10.0.0.51:38017/admin (2)添加分片 db.runCommand( { addshard : "sh1/10.0.0.51:38021,10.0.0.51:38022,10.0.0.51:38023",name:"shard1"} ) db.runCommand( { addshard : "sh2/10.0.0.51:38024,10.0.0.51:38025,10.0.0.51:38026",name:"shard2"} )
# 输出的内容中含有 ok:1即表示成功了. 此时在config server那个复制集中就保存有了两组shard信息. (3)列出分片 mongos> db.runCommand( { listshards : 1 } ) (4)整体状态查看 mongos> sh.status();
1.5.1 补充了解
此时分片集群就搭建完成了, 可正常使用, 但是此种状态有个隐患如下:
mogodb中默认存储引入了chunk的概念, 可理解为是一块存储空间, 默认大小是64M, 当某个chunk存储满了后会在分裂成两个32M的chunk, 此时分裂出的两个
32M的chunk会继续存储数据, 直到满64M后会再次分为两个32M........., 以上情况只会出现在一个shard中重复进行.(太不合理了, 完全没有起到多shard的优势)
好在mongos中有个balancer组件, 会把这些chunk比较均匀的迁移到其它shard中, 这就是所谓的分裂(拆分)与迁移的概念.
以上是不配置分片规则的场景, mongodb中也可定制分片规则, 参考1.6中操作.
1.6 使用分片集群
1.6.1 RANGE分片配置及测试
1、激活数据库分片功能
mongo --port 38017 admin admin> ( { enablesharding : "数据库名称" } ) eg: admin> db.runCommand( { enablesharding : "test" } )
2、指定分片键对集合分片(分片键要求必须添加索引)
### 创建索引 use test > db.vast.ensureIndex( { id: 1 } ) ### 开启分片 use admin > db.runCommand( { shardcollection : "test.vast",key : {id: 1} } ) # {关键字 : "库.表", key :{使用哪个键做range: 状态}} --状态的取值1表示从小到大分布, -1反之
3、集合分片验证
admin> use test test> for(i=1;i<1000000;i++){ db.vast.insert({"id":i,"name":"shenzheng","age":70,"date":new Date()}); } test> db.vast.stats()
4、分片结果测试
shard1: mongo --port 38021 db.vast.count(); shard2: mongo --port 38024 db.vast.count();
range分片机制: 其不会以轮询的方式在多个shard节点上均匀的写入数据, 而是轮询的方式当shard1写满64M(一个chunk)后再到shard2上写入, 写满一个chunk后会轮询到shard3上.........
所以, 如果数据量不是特别大,但是shard特别多的场景不建议使用range分片. shard1, shard2不代表实际顺序, 感觉像是随机的
1.6.2 Hash分片例子:
对oldboy库下的vast大表进行hash 创建哈希索引 (1)对于oldboy开启分片功能 mongo --port 38017 admin use admin admin> db.runCommand( { enablesharding : "oldboy" } ) (2)对于oldboy库下的vast表建立hash索引 use oldboy oldboy> db.vast.ensureIndex( { id: "hashed" } ) (3)开启分片 use admin admin > sh.shardCollection( "oldboy.vast", { id: "hashed" } ) (4)录入10w行数据测试 use oldboy for(i=1;i<100000;i++){ db.vast.insert({"id":i,"name":"shenzheng","age":70,"date":new Date()}); } (5)hash分片结果测试 mongo --port 38021 use oldboy db.vast.count(); mongo --port 38024 use oldboy db.vast.count();
hash分片是均匀的落入各个shard中.
66