elasticsearch(es)根据指定字段去重查询

 

distinctFieldName  就是去重字段,这个字段必须是keyword类型 不然会报错

 

   //指定去重字段
            CollapseBuilder collapseBuilder = new CollapseBuilder(distinctFieldName);
            // 查询去重后的结果数量
            CardinalityAggregationBuilder aggregationBuilder = AggregationBuilders.cardinality("distinct").field(distinctFieldName);
            sourceBuilder.collapse(collapseBuilder);
            sourceBuilder.aggregation(aggregationBuilder);

 

  //去重查询要取另外的总数量
            ParsedCardinality distinct = search.getAggregations().get("distinct");
            Long total = NumberUtil.parseLong(distinct.getValueAsString());

 

 

{
    "query": {
         "match_all":{}
    },
    "collapse": {
        "field": "ip"
    },
    "from": 0,
    "size": 10,
    "track_total_hits": true,
    "aggs": {
      "courseAgg": {
        "cardinality": {
          "field": "ip"
        }
      }
    }
}

根据ip去重 

 "track_total_hits":true 的作用 #获取超过1w条数据 

 

 

2. 取得某个索引中某个字段中的所有出现过的值

这种操作类似于使用SQL的SELECT UNIQUE语句。当需要获取某个字段上的所有可用值时,可以使用terms聚合查询完成:eg: select distinct street_name from table_name ;

  

GET /index_streets/_search?size=0
{
 "aggs": {
   "street_values": {
     "terms": {
       "field": "name",
       "size":
     }
   }
 }
}

 

因为目标是得到name字段上的所有出现过的值,因此size被设置为了0,这样在返回的响应中不会出现冗长的hits部分

 

 

3. 取得某个索引/类型下某个字段中出现的不同值的个数

这种操作类似于使用SQL的select count( * )  from  (select distinct * from table)语句。当需要获取某个字段上的出现的不同值的个数时,可以使用cardinality聚合查询完成:

  

GET /index_streets/_search?size=0
{
  "aggs": {
    "uniq_streets": {
      "cardinality": {
        "field": "name.raw"
      }
    }
  }
}

因为目标是得到name字段上的所有出现过的值,因此size被设置为了0,这样在返回的响应中不会出现冗长的hits部分

 

 

SpringBoot 整合es(elasticsearch)使用elasticsearch-rest-high-level-client实现增删改查参考:https://www.cnblogs.com/pxblog/p/14808454.html

posted @ 2023-01-13 10:46  yvioo  阅读(5774)  评论(0编辑  收藏  举报