常用窗口函数以及应用场景

1、ROW_NUMBER

命令格式

row_number() over(partition by [col1, col2…]
order by [col1[asc|desc], col2[asc|desc]…])

命令说明
该函数用于计算行号，从1开始。
参数说明
- partition by [col1, col2..]：指定开窗口的列。
- order by col1[asc|desc], col2[asc|desc]：指定结果返回时的排序的值。
返回值说明
返回BIGINT类型。
用于去重

SELECT *
FROM (
    SELECT *
        , ROW_NUMBER() OVER (PARTITION BY t.去重字段 ORDER BY t.去重字段 DESC) AS rn
    FROM xxx t
) p
WHERE p.rn = 1;

2、LAG

命令格式

lag(expr，Bigint offset, default) over(partition by [col1, col2…]
[order by [col1[asc|desc], col2[asc|desc]…]])

命令说明
按偏移量取当前行之前第几行的值。如果当前行号为rn，则取行号为rn-offset的值。

　　　LAG()窗口函数返回分区中当前行之前行（可以指定第几行）的值。如果没有行，则返回null。

参数说明
- expr：任意类型。
- offset：BIGINT类型常量。输入值为STRING、DOUBLE到BIGINT的隐式转换，offset>0。
- default：当offset指定的范围越界时的缺省值，常量，默认值为NULL。
- partition by [col1, col2..]：指定开窗口的列。
- order by col1[asc|desc], col2[asc|desc]：指定返回结果的排序方式。
返回值说明
返回值类型同expr类型。

3、LEAD

命令格式

lead(expr，Bigint offset, default) over(partition by [col1, col2…]
[order by [col1[asc|desc], col2[asc|desc]…]])

命令说明
按偏移量取当前行之后第几行的值。如果当前行号为rn，则取行号为rn+offset的值。

　　　LEAD()窗口函数返回分区中当前行后面行（可以指定第几行）的值。如果没有行，则返回null。

参数说明
- expr：任意类型。
- offset：可选，BIGINT类型常量。输入值为STRING、DECIMAL、DOUBLE到BIGINT的隐式转换，offset>0。
- default：可选，当offset指定的范围越界时的缺省值，常量。
- partition by [col1, col2..]：指定开窗口的列。
- order by col1[asc|desc], col2[asc|desc]：指定返回结果的排序方式。
返回值说明
返回值类型同expr类型。

window子句：
　　- PRECEDING：往前
　　- FOLLOWING：往后
　　- CURRENT ROW：当前行
　　- UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING：表示到后面的终点

select name,orderdate,cost,
sum(cost) over() as sample1,--所有行相加
sum(cost) over(partition by name) as sample2,--按name分组，组内数据相加
sum(cost) over(partition by name order by orderdate) as sample3,--按name分组，组内数据累加
sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and current row )  as sample4 ,--和sample3一样,由起点到当前行的聚合
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING   and current row) as sample5, --当前行和前面一行做聚合
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING   AND 1 FOLLOWING  ) as sample6,--当前行和前边一行及后面一行
sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as sample7 --当前行及后面所有行
from t_window;

应用场景

一、聚合

1、店铺19年总销量(sum)

sum是求和，over()没有参数，则对所有数据进行求和，输出的结果都是5800

select a.*, sum(sale)over() as total_sale from sale_detial a

2、店铺19年每个level总销量(sum)

用level分组求和，则每个level的输出结果一致

select a.*,
sum(sale)over() as total_sale,
sum(sale)over(partition by level) as level_sale from sale_detial a

3、店铺19年每个level按城市销量降序累加求和销量(sum)

当使用order by时，没有rows between则意味着窗口是从起始行到当前行，所以对不同level进行累加求和

select a.*,
sum(sale)over() as total_sale,
sum(sale)over(partition by level) as level_sale,
sum(sale)over(partition by level order by sale desc) as level_cum_sale
from sale_detial a

4、店铺19年总销售城市数量、每个level城市数量(count)

count()是计数，可以用count(distinct city)进行去重，如果partition by进行分组，则分组后计数

select a.*,
count(city)over() as total_city,
count(city)over(partition by level) as level_city
from sale_detial a

5、店铺19年平均每个城市销量，各level平均销量(avg)

avg用法与sum基本一致

select a.*,
avg(sale)over() as avg_sale,
avg(sale)over(partition by level) as level_avg_sale
from sale_detial a

6、店铺19年按城市销量降序后，截止当前平均、移动平均(avg)

当用rows between指定窗口后可以计算移动平均

select a.*,
avg(sale)over(order by sale desc) as avg_sale,
avg(sale)over(order by sale desc rows between 1 preceding and 1 following) as avg_sale_1
from sale_detial a

7、店铺19年城市最高销量，各level最低销量(max/min)

max/min用法与sum一致

select a.*,
max(sale)over() as max_sale,
min(sale)over(partition by level) as level_min_sale
from sale_detial a

二、排序

1、店铺19年各城市按销量排序（row_number,rank,dense_rank)

row_number——从1开始，按照顺序，生成分组内记录的序列

rank——成数据项在分组中的排名，排名相等会在名次中留下空位。

dense_rank——生成数据项在分组中的排名，排名相等会在名词中不会留下空位

select a.*,
row_number()over(order by sale desc) as row_number,
rank()over(order by sale desc) as rank,
dense_rank()over(order by sale desc) as dense_rank
from sale_detial a

三、极值

1、店铺19年销量最高最低城市，各level销量最低城市（first_value,last_value)

first_value，按分组排序后，取范围内第1个值，last_value，取最后1个值

因为默认窗口的关系，last_value会随着窗口的改变而改变，所以一般不用last_value，如果要用，则改变窗口为所有行

select a.*,
first_value(city)over(order by sale desc) as max_city,
first_value(city)over(order by sale asc) as min_city,
last_value(city)over(order by sale desc) as min_city_1,
last_value(city)over(partition by level order by sale desc rows between unbounded preceding and unbounded following) as level_min_city
from sale_detial a

四、移动

1、店铺19年按level分组后各城市销量前1位和后1位的城市（lag,lead)

lag/lead是按照排序规则，取前多少位和后多少位，参数有3个，第1个是要取出来的列，第2个移动多少位，第3个是如果取不到，赋予的值，默认取不到是NULL

select a.*,
lag(city,1,null)over(partition by level order by sale desc) as lag_city,
lead(city,1,'0')over(partition by level order by sale desc) as lead_city
from sale_detial a

五、切片

1、店铺19年按销量切片、各level按销量切片（ntile)

ntile(n)，用于将分组数据按照顺序切分成N片，返回当前切片值。ntile不支持rows between，如果切片不均匀，默认增加第一个切片的分布。

ntile这个很强大，以前要获取一定比例的数据是非常困难的，ntile就是把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，ntile返回此行所属的组的编号

select a.*,
ntile(3) over(order by sale desc) as total_part,
ntile(2)over(partition by level order by sale desc) as level_part
from sale_detial a

本文摘自：https://blog.csdn.net/cindy407/java/article/details/105394672

posted @ 2020-02-23 23:03 苏su 阅读(1591) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

苏su

常用窗口函数以及应用场景

1、ROW_NUMBER

2、LAG

3、LEAD

应用场景

一、聚合

1、店铺19年总销量(sum)

2、店铺19年每个level总销量(sum)

3、店铺19年每个level按城市销量降序累加求和销量(sum)

4、店铺19年总销售城市数量、每个level城市数量(count)

5、 店铺19年平均每个城市销量，各level平均销量(avg)

6、店铺19年按城市销量降序后，截止当前平均、移动平均(avg)

7、 店铺19年城市最高销量，各level最低销量(max/min)

二、排序

1、店铺19年各城市按销量排序（row_number,rank,dense_rank)

三、极值

1、店铺19年销量最高最低城市，各level销量最低城市（first_value,last_value)

四、移动

1、店铺19年按level分组后各城市销量前1位和后1位的城市（lag,lead)

五、切片

1、店铺19年按销量切片、各level按销量切片（ntile)

公告

5、店铺19年平均每个城市销量，各level平均销量(avg)

7、店铺19年城市最高销量，各level最低销量(max/min)