Hive(三)分组、聚合、排序、窗口函数

最近看了一遍hive的文档，本文是为了记录文档中将来会可用东西，并非最全的《文档》，望谅解

一：建表语句

           drop table window_test;
           create external table if not exists window_test
           (
                          name string,
                          score string
           )

           row format delimited
           fields terminated by '|'
           location '/hive/table/window_test';

二：排序函数

关键字	含义
sortby	分区内有序
orderby	全局有序
distrbuteby	分区函数
clusterby	sortby distrbuteby字段相同只能升序排列

三：函数操作

1.sum与over实现定制sum

//查询当前行和下两行score总分的数据
select name, score, sum(score)over(order by name rows between current row and 2 following) from window_test;

//查询当前行和上两行score总分的数据
select name, score, sum(score)over(order by name rows between 2 preceding and current row) from window_test;

//查询当前行和以下行score总分的数据
select name, score, sum(score)over(order by name rows between current row and unbounded following) from window_test;

//查询当前行和以上行score总分的数据
select name, score, sum(score)over(order by name rows between unbounded preceding and current row) from window_test;

2.排序

//排序函数每一个name分组后从1开始排序，相同的数据列序号相同，后一个加一
select name, score, rank()over(partition by name order by score) from window_test;

//排序函数每一个name分组后从1开始排序，相同的数据列序号相同，后一个不加一
select name, score, dense_rank()over(partition by name order by score) from window_test;

//排序函数每一个name分组后从1开始排序，相同的数据列序号不相同
select name, score, row_number()over(partition by name order by score) from window_test;

3.第一个值、最后一个值

//分组内排正序取第一个score
select name, score, first_value(score)over(partition by name order by score) from window_test;

//分组内排正序取最后一个score
select name, score, last_value(score)over(partition by name order by score range between unbounded preceding and unbounded following) from window_test;