Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

转载:http://lxw1234.com/archives/2015/04/185.htm

数据准备:

  1. d1,user1,1000
  2. d1,user2,2000
  3. d1,user3,3000
  4. d2,user4,4000
  5. d2,user5,5000
  6.  
  7. CREATE EXTERNAL TABLE lxw1234 (
  8. dept STRING,
  9. userid string,
  10. sal INT
  11. ) ROW FORMAT DELIMITED
  12. FIELDS TERMINATED BY ','
  13. stored as textfile location '/tmp/lxw11/';
  14.  
  15.  
  16. hive> select * from lxw1234;
  17. OK
  18. d1 user1 1000
  19. d1 user2 2000
  20. d1 user3 3000
  21. d2 user4 4000
  22. d2 user5 5000

CUME_DIST

–CUME_DIST 小于等于当前值的行数/分组内总行数
–比如,统计小于等于当前薪水的人数,所占总人数的比例

 

 

PERCENT_RANK

–PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
应用场景不了解,可能在一些特殊算法的实现中可以用到吧。

 

posted on 2020-11-15 14:50  大鹏的鸿鹄之志  阅读(175)  评论(0编辑  收藏  举报