aggregation 详解3(bucket aggregation)
概述
桶分聚合不进行权值的计算,他们对文档根据聚合请求中提供的判断条件(比如:{"from":0, "to":100})来进行分组(桶分)。
桶分聚合还会额外返回每一个桶内文档的个数。
桶分聚合可以包含子聚合——sub-aggregations(权值聚合不能包含子聚合,可以作为子聚合),子聚合操作将会应用到由父(parent)聚合产生的每一个桶上。
桶分聚合根据聚合条件,可以只定义输出一个桶;也可以输出多个;还可以在根据聚合条件动态确定桶个数(比如:terms aggregation)。
Histogram Aggregation(multi-bucket)
直方图聚合——基于文档中的某个【数值类型】字段,通过计算来动态的分桶。
一个文档属于某个桶,计算过程大致如下:
rem = value % interval if (rem < 0) { rem += interval } bucket_key = value - rem
配置参数
- field:字段,必须为数值类型
- interval:分桶间距
- min_doc_count:最少文档数桶过滤,只有不少于这么多文档的桶才会返回
- extended_bounds:范围扩展
- order:对桶排序,如果 histogram 聚合有一个权值聚合类型的"直接"子聚合,那么排序可以使用子聚合中的结果
- offset:桶边界位移,默认从0开始
- keyed:hash结构返回,默认以数组形式返回每一个桶
- missing:配置缺省默认值
{ "aggs" : { "prices" : { "histogram" : { "field" : "price", "interval" : 50, "min_doc_count" : 1, "extended_bounds" : { "min" : 0, "max" : 500 }, "order" : { "_count" : "desc" }, "keyed":true, "missing":0 } } } }
Data Histogram Aggregation(multi-bucket)
日期直方图聚合——基于日期类型,以【日期间隔】来桶分聚合。
可用的时间间隔类型为:year、quarter、month、week、day、hour、minute、second,其中,除了year、quarter 和 month,其余可用小数形式。
配置参数
- field:
- interval:
- format:定义日期的格式,配置后会返回一个 key_as_string 的字符串类型日期(默认只有key)
- time_zone:定义时区,用作时间值的调整
- offset:
- missing:
{ "aggs" : { "articles_over_time" : { "date_histogram" : { "field" : "date", "interval" : "month", "format" : "yyyy-MM-dd", "time_zone": "+08:00" } } } }
Range Aggregation(multi-bucket)
范围聚合——基于某个值(可以是 field 或 script),以【字段范围】来桶分聚合。
范围聚合包括 from 值,不包括 to 值(区间前闭后开)。
配置参数
- ranges:配置区间,数组,每一个元素是一个区间。例如:[{from:0}, {from:50, to:100}, {to:200}]
- keyed:以一个关联的唯一字符串作为键,以 HASH 形式返回,而不是默认的数组
- script:利用 script 执行结果替代普通的 field 值进行聚合。script可以用file给出,还可以对其它 field 进行求值计算。
{ "aggs" : { "price_ranges" : { "range" : { "field" : "price", "ranges" : [ //包含 3 个桶 { "to" : 50 }, { "from" : 50, "to" : 100 }, { "from" : 100 } ], "keyed" : true } } } }
Date Range Aggregation(multi-bucket)
日期范围聚合——基于日期类型的值,以【日期范围】来桶分聚合。
日期范围可以用各种 Date Math 表达式。
同样的,包括 from 的值,不包括 to 的值。
配置参数
- format:定义日期格式,配置后会返回一个 [to/from]_as_string 的字符串类型日期,默认是 to/from 的数值表示
{ "aggs": { "range": { "date_range": { "field": "date", "format": "MM-yyy", "ranges": [ //包含 3 个桶 { "to": "now-10M/M" }, { "from": "now-10M/M" }, {"from":"1970-1-1", "to":"2000-1-1"} ] } } } }
Terms Aggregation(multi-bucket)
词元聚合——基于某个field,该 field 内的每一个【唯一词元】为一个桶,并计算每个桶内文档个数。
默认返回顺序是按照文档个数多少排序。
当不返回所有 buckets 的情况,文档个数可能不准确。
配置参数
- size:size用来定义需要返回多个 buckets(防止太多),默认会全部返回。(注意,如果只返回部分buckets,统计的文档个数不一定准确(每个分片各自的top size个)。size 越大,count 会越精确。)
- order:排序方式
- min_doc_count:只返回文档个数不小于该值的 buckets
- script:用基本来生成词元
- include:包含过滤
- exclude:排除过滤
- execution_hint:
- collect_mode:
- missing:
{ "aggs" : { "genders" : { "terms" : { "field" : "gender", "size" : 5, "order" : { "_count" : "asc" }, "min_doc_count": 10, "include" : ".*sport.*", "exclude" : "water_.*", "missing": "N/A" } } } }
Filters Aggregation(multi-bucket)
多过滤聚合——基于多个过滤条件,来对当前文档进行【过滤】的聚合,每个过滤都包含所有满足它的文档(多个bucket中可能重复)。
配置参数
- filters: 配置过滤条件,支持 HASH 或 数组格式
- other_bucket: 是否计算不满足任何匹配条件的文档
- other_bucket_key: 作为不匹配所有过滤条件的文档的 bucket 名称
{ "aggs" : { "messages" : { "filters" : { "other_bucket_key": "other_messages", //不在过滤条件范围内的文档都归属于 other_messages 桶 "filters" : { //过滤条件 "errors" : { "term" : { "body" : "error" }}, "warnings" : { "term" : { "body" : "warning" }} } }, "aggs" : { "monthly" : { "histogram" : { "field" : "timestamp", "interval" : "1M" } } } } } }
Filter Aggregation(single-bucket)
过滤聚合——基于一个条件,来对当前的文档进行过滤的聚合。
{ "aggs" : { "red_products" : { "filter" : { "term": { "color": "red" } }, "aggs" : { "avg_price" : { "avg" : { "field" : "price" } } } } } }
IPv4 Range Aggregation(multi-bucket)
IP4聚合——基于一个 IPv4 字段,对文档进行【IPv4范围】的桶分聚合。
和 Range Aggregation 类似,只是应用字段必须是 IPv4 数据类型。
{ "aggs" : { "ip_ranges" : { "ip_range" : { "field" : "ip", "ranges" : [ //包含 3 个桶,各个桶之间可能有文档重复 { "to" : "10.0.0.5" }, { "from" : "10.0.0.5" }, { "from":"1.1.1.1", "to" : "10.0.0.5" }, ] } } } }
Nested Aggregation(single-bucket)
嵌套类型聚合——基于嵌套(nested)数据类型,把该【嵌套类型的信息】聚合到单个桶里,然后就可以对嵌套类型做进一步的聚合操作。
// resellers 是一个嵌套类型 { ... "product" : { "properties" : { "resellers" : { "type" : "nested", "properties" : { "name" : { "type" : "string" }, "price" : { "type" : "double" } } } } } } // 对 nested 对象里面的信息做其它聚合操作 { "query" : { "match" : { "name" : "led tv" } }, "aggs" : { "resellers" : { "nested" : { //"嵌套类型聚合"把所有嵌套信息都包含在单一的桶里,以供进一步处理 "path" : "resellers" }, "aggs" : { "min_price" : { "min" : { "field" : "resellers.price" } } //对嵌套类型聚合输出的桶做进一步处理,这里是计算其 price 的 average } } } }