4.elasticsearch中聚合查询
elasticsearch聚合查询
什么是聚合,就是目的不是查询具体的文档,而是查询文档的相关性,此外还可以对聚合的文档在按照其他维度再聚合。
包含以下四种聚合
- Bucket Aggregation 一些列满足特定条件的文档的集合
- terms 对某个字段统计每个不同的内容,以及出现文档的个数
- range 某个范围内文档的个数
- Metric Aggregation 一些数学运算,可以对文档字段进行统计分析
- 输出一个值,min/max/sum/avg/cardinality
- 输出多个值,stats/percentiles/percentile_ranks
- Pipeline Aggregation 对其他的聚合结果进行二次聚合(不是对文档进行聚合)
- Matrix Aggregation 支持对多个字段的操作并提供一个结果矩阵
聚合的作用范围
默认聚合范围是全文,但是如果有query查询,那么聚合的范围就是query查询的结果
如果有聚合中有filter过滤,那么其子聚合的作用范围是filter过滤的文档,但是和此聚合并列的聚合,不受filter影响
我们可以指定一些作用范围,关键字是 post_filter、global
聚合的排序
默认聚合是按照buckets的文档数进行排序的,我们也可以自己指定排序字段
聚合的精准度问题
我们需要关注返回结果的两个字段
- doc_count_error_upper_bound
- 被遗漏的term分桶,包含的文档,有可能的最大值
- sum_other_doc_count
- 除了返回结果bucket的terms以外,其他terms的文档总数(总数-返回的总数)
doc_count_error_upper_bound:例如,在取分桶后的前三个时,这里的值就是每个分片最后一个的文档数的和
sum_other_doc_count:所有文档数-分桶展示出来的文档总数
如何解决terms不准的问题
- terms聚合分析不准的原因,数据分散在多个分片上,coordinating node无法获取数据全貌,
- 解决方案一、当数据量不大时,设置primary shard为1,实现准确性
- 解决方案二、在分布式数据上,设置shard_size参数,提高精准度
- 就是每次从shard上获取的比你size指定的更多的数据,提升准确率,你让我取前三,我分别取前6个,然后在组合起来取前三。
- shard size大小设定 size*1.5+10
__EOF__

本文作者:赛博朋克V
本文链接:https://www.cnblogs.com/pengliblogs/p/17946810.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文链接:https://www.cnblogs.com/pengliblogs/p/17946810.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
合集:
elasticsearch
分类:
elasticsearch总结
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~