hive 取第二高指标的两种解决思路

需求

平时工作中经常会遇到取某某指标第 n 个的需求，今天介绍下取这样需求的两种思路

数据准备

select *from temp_shop_info  where shop_id = '111';
111    1    90
111    2    80
111    3    50
111    4    70
111    5    20
111    6    10

最后一个字段是金额，今天就取第二个金额的数据

方案一

首先通过 row_number() 方式实现

select *
from (select *, row_number() over ( order by sale) rn
      from temp_shop_info
      where shop_id = '111') t
where rn = 2;

这样的好处是可以获取全列信息，通过 row_number() over ( order by sale) sale 字段排序的结果作为辅助字段，通过辅助字段提取序号为2 的即可。需要说明的是可以 over() 内部可以增加 partition by clo 来取每笔订单的top n 的金额对需求进行扩展。

注意：当出现金额相同出现并列排名第2的时候只会一条数据，此时需要根据业务侧要求进行修改，如果只取一条数据，那么无需修改，如果需要展示并列的数据需要修改如下

select *
from (select *, dense_rank() over ( order by sale) rn
      from temp_shop_info
      where shop_id = '110') t
where rn = 2;

也许有人会感到奇怪，为什么这里会出来两条数据呢，接下来顺便说下三个常用的排序函数的区别

select *,
       rank() over ( order by sale )      rank__,
       dense_rank() over ( order by sale) dense_rank__,
       row_number() over ( order by sale) row_number__
from temp_shop_info
where shop_id = '110';

说明：

row_number：按顺序编号，排序列值相等排序结果不留空位;
rank：　　按顺序编号，排序列值相等排序结果同号，留空位;
dense_rank：按顺序编号，排序列值相等排序结果同号，不留空位;

方案二

select distinct(sale) sale
from temp_shop_info
where shop_id = '111'
order by sale
limit 1 offset 2;

offset 是偏移量，表示从第几条数据读取数据。limit 表示取几条数据

select distinct(sale) sale
from temp_shop_info
where shop_id = '110'
order by sale
limit 3 offset 2;

posted @ 2022-02-28 16:56 晓枫的春天阅读(638) 评论(0) 收藏举报

刷新页面返回顶部

滴水穿石不是靠力，而是因为不舍昼夜。

hive 取第二高指标的两种解决思路

需求

数据准备

方案一

方案二

公告