Elasticsearch 对于大数据量(上亿量级)的聚合如何实现?

 

Elasticsearch 提供的首个近似聚合是 cardinality 度量它提供一个字段的基数

即该字段的 distinct 或者 unique 值的数目它是基于 HLL 算法的。HLL 会先对 

我们的输入作哈希运算然后根据哈希运算的结果中的 bits 做概率估算从而得到 

基数其特点是可配置的精度用来控制内存的使用更精确 = 更多内存);

小的数据集精度是非常高的我们可以通过配置参数来设置去重需要的固定内 

存使用量无论数千还是数十亿的唯一值内存使用量只与你配置的精确度相关

posted @ 2020-07-17 13:24  咔啡  阅读(2865)  评论(0编辑  收藏  举报