代码改变世界

MongoDB 7.0 分片键分析助手--analyzeShardKey()

  abce  阅读(109)  评论(0编辑  收藏  举报

分片键是群集的关键组成部分,因为它决定了数据在分片中的分布。

 

分片集群的大部分问题都与错误的分片键选择有关;对于一个好的分片键,必须注意以下几点:

·分片键的 cardinality

·分片键值出现的频率

·潜在分片键值是否单调增长

·分片查询模式

在老版本中,分片键是不可变的,但现在(+4.4),提供了新的功能来改进甚至改变你的分片键。比如重定义或重新分片。仍然需要手动查询你的集合来回答上面的问题,比如你的键是否具有良好的 cardinality 和频率等等。

MongoDB 7.0 增加了两个新方法,它们返回的指标对评估现有或潜在的新分区键非常有用。这两种方法是:

1
2
3
4
5
6
7
8
9
10
11
12
13
db.collection.analyzeShardKey()
 
 
db.adminCommand(
   {
     analyzeShardKey: <string>,
     key: <shardKey>,
     keyCharacteristics: <bool>,
     readWriteDistribution: <bool>,
     sampleRate: <double>,
     sampleSize: <int>
   }
 )

输出结果会提供三个包含统计数据的文档:

·keyCharacteristics:提供有关分片键的 cardinality、频率和单调性指标。

·readDistribution/writeDistribution:提供有关查询路由模式和分片键范围热点的指标。

analyzeShardKey计算用于评估未分片或分片集合的分片键的统计信息,基于抽样查询。可以使用 configureQueryAnalyzer 配置集合上的查询采样比例。

analyzeShardKey 不会阻塞集合上的读写操作。

 

analyzeShardKey 的语法:

1
2
3
4
5
6
7
8
9
10
db.adminCommand(
   {
     analyzeShardKey: <string>,--集合的命名空间,必须指定,没有默认值
     key: <shardKey>,--要分析的分片键,可以是已经做了分片,或者为分片的;必选参数
     keyCharacteristics: <bool>,--是否估算分片键的统计信息;可选项
     readWriteDistribution: <bool>,--是否估算读写分布的统计信息;可选项
     sampleRate: <double>,--采样比例;可选项必须;必须大于0,最大可以等于1;如果设置了该值,就不可以设置sampleSize
     sampleSize: <int> --采样数量;可选参数
   }
 )

analyzeShardKey 会根据运行时指定的 keyCharacteristic 和 readWriteDistribution 值返回不同的指标。

下面,以两个候选分片键为例说明 analyzeShardKey()。

 

由于该集合尚未分片,我们设置了 readWriteDistribution: false。可以使用新方法来帮助你评估一个已使用的分片键或一个未来的分片键,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
db.adminCommand({analyzeShardKey: "percona.employee", key: {badgeId: "hashed"},readWriteDistribution: false })
{
  keyCharacteristics: {
    numDocsTotal: Long("13591000"),
    avgDocSizeBytes: Long("207"),
    numDocsSampled: Long("10000000"),
    isUnique: false,
    numDistinctValues: Long("9988503"),
    mostCommonValues: [
      {
        value: { badgeId: Long("8472676555298607") },
        frequency: Long("3")
      },
      {
        value: { badgeId: Long("4284333888163027") },
        frequency: Long("3")
      },
      {
        value: { badgeId: Long("3463302535508078") },
        frequency: Long("3")
      },
      {
        value: { badgeId: Long("5807207987841736") },
        frequency: Long("3")
      },
      {
        value: { badgeId: Long("88360867693259") },
        frequency: Long("3")
      }
    ],
    monotonicity: { recordIdCorrelationCoefficient: 0, type: 'not monotonic' }
  },
  ok: 1,
  '$clusterTime': {
    clusterTime: Timestamp({ t: 1696960527, i: 1 }),
    signature: {
      hash: Binary.createFromBase64("i+DjCSA7WpV3KJAT5HwXhTLb7uw=", 0),
      keyId: Long("7288022888098037764")
    }
  },
  operationTime: Timestamp({ t: 1696960524, i: 1 })
}

第二个

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
> db.adminCommand({analyzeShardKey: "percona.employee", key: {created: 1},readWriteDistribution: false })
{
  keyCharacteristics: {
    numDocsTotal: Long("13591000"),
    avgDocSizeBytes: Long("207"),
    numDocsSampled: Long("9998918"),
    isUnique: false,
    numDistinctValues: Long("955449"),
    mostCommonValues: [
      {
        value: { created: ISODate("2023-10-10T17:01:02.732Z") },
        frequency: Long("21")
      },
      {
        value: { created: ISODate("2023-10-10T17:14:32.273Z") },
        frequency: Long("20")
      },
      {
        value: { created: ISODate("2023-10-10T17:01:16.426Z") },
        frequency: Long("20")
      },
      {
        value: { created: ISODate("2023-10-10T17:01:03.824Z") },
        frequency: Long("20")
      },
      {
        value: { created: ISODate("2023-10-10T17:02:06.022Z") },
        frequency: Long("20")
      }
    ],
    monotonicity: { recordIdCorrelationCoefficient: 0.9999999911, type: 'monotonic' }
  },
  ok: 1,
  '$clusterTime': {
    clusterTime: Timestamp({ t: 1696960030, i: 1 }),
    signature: {
      hash: Binary.createFromBase64("LHsIUx9Au7axEpq7eLYcTa0mkmM=", 0),
      keyId: Long("7288022888098037764")
    }
  },
  operationTime: Timestamp({ t: 1696960024, i: 1 })
}

根据这个输出结果,就可以通过检查文档总数除以不同值的数量来了解你的关键字是否具有高过滤性。

mostCommonValues 字段增加了对某个值频率的了解;如果频率很高,则可能预示着未来可能会出现 jumbo 数据,因为这些值经常重复,从而增加了数据块,进而变得不可分割。

analyzeShardKey() 使用查询采样配置来计算指标;作为新功能的一部分,你可以通过 configureQueryAnalyzer() 来配置查询采样。

相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-12-16 Oracle中有大量的sniped会话
2021-12-16 Oracle kill会话
2015-12-16 [Warning] TIMESTAMP with implicit DEFAULT value is deprecated
2015-12-16 explicit_defaults_for_timestamp参数
2015-12-16 EBS创建相应的用户
点击右上角即可分享
微信分享提示