Hive row_number() 等用法

1、row_number() over()排序功能：

（1） row_number() over()分组排序功能：

在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where group by order by 的执行。

partition by 用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组，它和聚合函数不同的地方在于它能够返回一个分组中的多条记录，而聚合函数一般只有一个反映统计值的记录。

例如：employee,根据部门分组排序。

<strong>SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (partition by workdept ORDER BY salary desc) rank FROM employee</strong>   
--------------------------------------  
 A00 152750  1  
 A00 66500   2  
 A00 49250   3  
 A00 46500   4  
 A00 39250   5  
 B01 94250   1  
 C01 98250   1  
 C01 73800   2

（2）对查询结果进行排序：（无分组）

<strong>SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (ORDER BY salary desc) rank FROM employee  </strong> 
--------------------------------------  
 A00 152750  1  
 C01 98250   2  
 D21 96170   3  
 B01 94250   4  
 E11 89750   5  
 E21 86150   6  
 E01 80175   7  
 C01 73800   8  
 D11 72250   9

row_number() over()和rownum差不多，功能更强一点（可以在各个分组内从1开时排序）．

2、rank() over()是跳跃排序，有两个第二名时接下来就是第四名（同样是在各个分组内）．

<strong>select workdept,salary,rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept; </strong> 
------------------  
A00 39250   1  
A00 46500   2  
A00 49250   3  
A00 66500   4  
A00 152750  5  
B01 94250   1  
C01 68420   1  
C01 68420   1  
C01 73800   3

3、dense_rank() over()是连续排序，有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的．

<strong>select workdept,salary,dense_rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept;</strong>  
------------------  
A00 39250   1  
A00 46500   2  
A00 49250   3  
A00 66500   4  
A00 152750  5  
B01 94250   1  
C01 68420   1  
C01 68420   1  
C01 73800   2  
C01 98250   3

使用ROW_NUMBER删除重复数据
---假设表TAB中有a,b,c三列，可以使用下列语句删除a,b,c都相同的重复行。

1 2	`DELETE` `FROM` `(select` `year,QUARTER,RESULTS,row_number() over(partition` `by` `YEAR,QUARTER,RESULTS` `order` `by` `YEAR,QUARTER,RESULTS)` `AS` `ROW_NO` `FROM` `SALE )` `WHERE` `ROW_NO>1`

最后在执行hive 语句时出错，出现错误：

FAILED: ParseException line 22:7 extraneous input '10' expecting EOF near ''

有看到解释说是，原因是：

sql语句中多了分号。。。

执行脚本时需要在sql后面添加分号，但是调用jdbc执行sql语句时，不可以在语句用分号结束。

但依旧没有解决问题。

转自：https://www.cnblogs.com/alsf/p/6344197.html

posted @ 2018-07-05 15:38 静悟生慧阅读(55431) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

历史上的今天：
2017-07-05 Lintcode---区间求和 I
2017-07-05 Lintcode---区间最小数

公告

昵称：静悟生慧
园龄： 9年5个月
粉丝： 231
关注： 94

+加关注

2025年3月

日

一

二

三

四

五

六

静悟生慧

Hive row_number() 等用法

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论