Elasticsearch对大数据量的聚合实现

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数，即该字段的 distinct 或者 unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算，然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是：可配置的精度，用来控制内存的使用（更精确＝更多内存）；

小的数据集精度是非常高的；我们可以通过配置参数，来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值，内存使用量只与你配置的精确度相关。

posted @ 2022-07-26 19:12 开源遗迹阅读(75) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 对于GC，Elasticsearch需要注意什么

· Elasticsearch的倒排索引

· 36-ElasticSearch-aggregations（执行聚合）

· elasticsearch之数据聚合

· 2021年最新版Elasticsearch面试题总结（30 道题含答案）

阅读排行：
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报

公告

昵称：开源遗迹
园龄： 3年3个月
粉丝： 7
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:无icode和tcode的jar包，大型商业级代驾
@王宇通先生你qq多少我发你...
--开源遗迹
2. Re:无icode和tcode的jar包，大型商业级代驾
qq搜不到
--王宇通先生
3. Re:Docker容器跨主机通信
@咸鱼翻这取决于你的网络配置和部署环境设置。你可以通过查看你的部署脚本或者容器配置来确定正确的IP地址。...
--开源遗迹
4. Re:Docker容器跨主机通信
如果容器启动的SpringBoot服务，向nacos服务注册的ip地址是哪个了？是172.27.1.xx是吗？谢谢
--咸鱼翻身