es的聚合类型

看了本文，你将掌握

1、ES有哪些聚合类型？Bucket、Metric、Pipeline Aggregations 各自的特点是什么？？

2、Bucket Aggs 有哪些种类？各自的使用场景是什么？

3、Bucket Aggs 各种类型的重要参数有哪些？注意事项是什么？

01 ES聚合类型简介

一图胜千言

如上图，ES的聚合一共有4种类型，Bucket 、Metric、Pipeline 是经常使用的，掌握了这3种聚合，就已经可以满足日常大部分的聚合分析场景了。

在学习之前，先掌握aggregations的语法结构：【注意aggregations关键字可使用aggs代替】

简单示例，学会agg语法：

GET /cars/_search
{
"size": 0,
"aggs": {
"first_agg_name": {
"terms": {
"field": "color"
},
"aggs": {
"sub_agg_name1": {
"avg": {
"field": "price"
}
},
"sub_agg_name2": {
"terms": {
"field": "make"
}
}
}
}
}
}

02 Bucket Aggregations

Bucket 就是桶的意思，即按照一定的规则将文档分配到不同的桶中，达到分类分析的目的。

ES从 2.x 到 7.x，聚合功能已经日渐强大，到 7.7 版本， Bucket 聚合已经有25种类型了，今天我们就一起系统学习 Bucket Aggregations，全面掌握 Bucket 聚合。

Bucket Aggs 概览

ps：因为篇幅问题，TeHero在文章中就只通过示例进行简单讲解，涉及其他的注意事项，重要参数等，见xmind截图，毕竟一图胜千言，哈哈，好吧，我承认，就是懒得写重复的内容【文末有xmind源文件获取方式】。

2.0 写在前面

通过上图《Bucket Aggs 概览》我们可以看到，一共有25种类型的 Bucket Aggs，对于每一种聚合类型，我们都去详细学习并掌握是比较费时间的，个人建议可以按如下方式学习：

1）了解每种聚合类型的使用场景，简单而言，就是知道每种聚合是干嘛的，能对数据做怎样的分析；
2）了解其注意事项和重要参数；
3）完成以上2点，我觉得就差不多了，在实际工作中，面对需求，我们知道可以用哪些聚合操作解决需求即可，需要用到的时候再去详细学习具体的语法。

2.1 Terms 术语聚合

场景示例：对于博客系统，按不同的作者分类聚合，得到每位作者的博文总数

GET /blogs_index/_search
{
"size": 0,
"aggs": {
"author": {
"terms": {
"field": "author"
}
}
}
}

结果：

"aggregations" : {
"author" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : "方才兄",
"doc_count" : 3
},
{
"key" : "方才",
"doc_count" : 1
}
]
}
}

2.2 Rare Terms 稀有术语聚合

在 Terms Aggs 中，聚合结果的排序是默认根据 doc_count 的值降序排列，但在实际使用过程中，我们有时候希望根据 doc_count 的值升序排列，这个时候就应该使用 Rare Terms【之所以不使用 Terms aggs再去改变排序规则，是因为聚合精度问题，后续专门讨论】

场景示例：按不同的作者分类聚合，同时根据每位作者的文章总数进行升序排列

GET /blogs_index/_search
{
"size": 0,
"aggs": {
"author": {
"rare_terms": {
"field": "author",
"max_doc_count": 10
}
}
}
}

注意max_doc_count参数：术语出现的最大文档数【返回的bucket 的 doc_count <= 该值】，默认值为1，最大值为100。

结果：

"aggregations" : {
"author" : {
"buckets" : [
{
"key" : "方才",
"doc_count" : 1
},
{
"key" : "方才兄",
"doc_count" : 3
}
]
}
}

2.3 Histogram 直方图聚合

场景示例：按商品价格区间聚合，得到不同价格区间的商品总数

GET /product/_search
{
"size": 0,
"aggs": {
"price": {
"histogram": {
"field": "price",
"interval": 2000
}
}
}
}

结果：

{
  "aggregations": {
    "price": {
      "buckets": [
        {
          "key": 0,
          "doc_count": 3
        },
        {
          "key": 20000,
          "doc_count": 4
        },
        {
          "key": 80000,
          "doc_count": 1
        }
      ]
    }
  }
}

简单解释下，返回的 “key” 值：0代表区间【0,2000），2000代表区间【2000,4000）。

2.4 Date histogram 日期直方图聚合