elasticsearch聚合--桶(Buckets)和指标(Metrics)的概念

写在前面的话:读书破万卷,编码如有神
--------------------------------------------------------------------
主要内容包括:

  1. 聚合的两个核心概念:桶(bucket)和指标(metric)
  2. 桶和指标的深入理解
  3. 示例说明

 ---------------------------------------------------------------------

1、聚合的两个核心概念                                                           

  在Elasticsearch的聚合中需要掌握两个核心的概念:桶(bucket)、指标(metric)

    桶(bucket): 满足特定条件的文档的集合

    指标(metric): 对桶内的文档进行聚合分析的操作

  (ps:每个聚合都是一个或者多个桶和零个或者多个指标的组合。)

翻译成粗略的SQL语句来解释的话:

SELECT COUNT(color)  ---> 相当于指标

FROM table

GROUP BY color  --->2  相当于桶

桶在概念上类似于SQL的分组(GROUP BY),而指标则类似于COUNT()、SUM()、MAX()等统计方法。

---------------------------------------------------------------------

2、桶和指标的深入理解                                                          

(1)桶  

  a、简单来说桶就是满足特定条件的文档的集合。

  b、当聚合开始被执行,每个文档里面的值通过计算来决定符合哪个桶的条件,如果匹配到,文档将放入相应的桶并接着开始聚合操作。

  c、桶也可以被嵌套在其他桶里面。

(2)指标

  a、桶能让我们划分文档到有意义的集合,但是最终我们需要的是对这些桶内的文档进行一些指标的计算。分桶是一种达到目的地的手段:它提供了一种给文档分组的方法来让我们可以计算感兴趣的指标。

  b、大多数指标是简单的数学运算(如:最小值、平均值、最大值、汇总),这些是通过文档的值来计算的。

(3)桶和指标的组合

  聚合是由桶和指标组成的。聚合可能只有一个桶,可能只有一个指标,或者可能两个都有。也有可能一些桶嵌套在其他桶里面。

---------------------------------------------------------------------

3、举例说明                                                                        

比如有如下的数据:

  city  name

  北京  小李

  北京  小王

  上海  小张

  上海    小丽

  上海  小陈

基于city来划分buckets的话,可以划分出两个bucket:一个是北京bucket、一个是上海bucket

  北京bucket:包含了2个人,小李、小王

  上海bucket:包含了3个人,小张、小丽、小陈

按照某个字段进行bucket划分,那个字段的值相同的那些数据,就会被划分到一个bucket中。当我们有了一堆bucket之后,就可以对每个bucket中的数据聚合分析了,比如说计算一个bucket内所有数据的数量 ,或者计算一个bucket内所有数据的平均值、最大值、最小值。

metric : 就是对一个bucket执行的某种聚合分析的操作,比如说求平均值、最大值、最小值 。

上面利用elasticsearch的分组,可以转化成对应的sql语句如下:

  select count(*) from access_log group by user_id

其中:bucket 相当于 group by user_id -->那些user_id相同的数据,就会被划分到一个bucket中

   metric 相当于 count(*) -->对每个user_id bucket中所有的数据计算一个数量  

 

 

posted @ 2017-09-24 11:05  火爆泡菜  阅读(5399)  评论(1编辑  收藏  举报