1. 函数说明
rank() 排序相同时会重复,总数不会变
dense_rank() 排序相同时会重复,总数会减少
row_number() 会根据顺序计算
2. 操作案例
2.1 数据准备
孙悟空 语文 87 孙悟空 数学 95 孙悟空 英语 68 唐僧 语文 94 唐僧 数学 56 唐僧 英语 84 猪八戒 语文 64 猪八戒 数学 86 猪八戒 英语 84 沙僧 语文 65 沙僧 数学 85 沙僧 英语 78
创建hive 表,导入数据。
[fanl@centos7 ~]$ vi score.txt [fanl@centos7 ~]$ cd /opt/modules/cdh5.14.2/hive-1.1.0-cdh5.14.2/ [fanl@centos7 hive-1.1.0-cdh5.14.2]$ bin/hive hive (default)> create table score( > name string, > subject string, > socre int) > row format delimited fields terminated by '\t'; OK Time taken: 4.504 seconds hive (default)> load data local inpath '/home/fanl/score.txt' into table score; Loading data to table default.score Table default.score stats: [numFiles=1, totalSize=17239] OK Time taken: 0.76 seconds hive (default)>
2.2 实际操作
需求:计算每门学科成绩排名
分析:按照学科分组,再按照成绩排序,使用partition by subject order by score
(1)row_number()仅仅是加了序号
hive (default)> select name,subject,score,row_number() > over(partition by subject order by score desc) as rank from score; OK name subject score rank 孙悟空 数学 95 1 猪八戒 数学 86 2 沙僧 数学 85 3 唐僧 数学 56 4 猪八戒 英语 84 1 唐僧 英语 84 2 沙僧 英语 78 3 孙悟空 英语 68 4 唐僧 语文 94 1 孙悟空 语文 87 2 沙僧 语文 65 3 猪八戒 语文 64 4
(2)rank() 可以显示相同的数据,下一名的排序+1,即为跳跃排序
hive (default)> select name,subject,score,rank() > over(partition by subject order by score desc) as rank from score; OK name subject score rank 孙悟空 数学 95 1 猪八戒 数学 86 2 沙僧 数学 85 3 唐僧 数学 56 4 猪八戒 英语 84 1 唐僧 英语 84 1 沙僧 英语 78 3 孙悟空 英语 68 4 唐僧 语文 94 1 孙悟空 语文 87 2 沙僧 语文 65 3 猪八戒 语文 64 4
(3)dense_rank(),即使有相同的数据,也会按照连续排序
hive (default)> select name,subject,score,dense_rank() > over(partition by subject order by score desc) as rank from score; OK name subject score rank 孙悟空 数学 95 1 猪八戒 数学 86 2 沙僧 数学 85 3 唐僧 数学 56 4 猪八戒 英语 84 1 唐僧 英语 84 1 沙僧 英语 78 2 孙悟空 英语 68 3 唐僧 语文 94 1 孙悟空 语文 87 2 沙僧 语文 65 3 猪八戒 语文 64 4
select line_require_id -- 需求id , line_require_date -- 需求日期 , line_code -- 线路编码 , full_load_weight -- 满载重量 , pass_zone_code , dest_zone_code , sort_num --判断tb_1的两字段是否相等,相等则取改行的waybill_weight --不等,则按line_require_id分区,sort_num升序, -- sum向上求和(sort_num升序,序号之上的才sum求和) , case when pass_zone_code=dest_zone_code then waybill_weight else sum(waybill_weight) over(partition by line_require_id order by sort_num asc) end as waybill_weight from tb_1