Hive 窗口函数使用（3）--蚂蚁种树

一、数据
plant_carbon.plant_id | plant_carbon.plant_name | plant_carbon.low_carbon
user_low_carbon.user_id | user_low_carbon.data_dt | user_low_carbon.low_carbon

二、需求一
1.蚂蚁森林植物申领统计
问题：假设2017年1月1日开始记录低碳数据（user_low_carbon），
假设2017年10月1日之前满足申领条件的用户都申领了一颗p004-胡杨，
剩余的能量全部用来领取“p002-沙柳”。
统计在10月1日累计申领“p002-沙柳”排名前10的用户信息；以及他比后一名多领了几颗沙柳。

①统计用户在 2017-1-1 至 2017-10-1期间一共收集了多少碳量

select user_id,sum(low_carbon) sumCarbon
from user_low_carbon
where regexp_replace(data_dt,'/','-') between '2017-1-1' and '2017-10-1'
group by user_id //t1

②统计胡杨和沙柳单价

胡杨单价：
select low_carbon huyangCarbon from plant_carbon where plant_id='p004'; //t2

沙柳单价：
select low_carbon shaliuCarbon from plant_carbon where plant_id='p002'; //t3

③计算每个用户领取了多少棵沙柳

select user_id, floor((sumCarbon-huyangCarbon)/shaliuCarbon) shaliuCount
from t1 join t2 join t3
order by shaliuCount desc
limit 11 //t4

④统计前10用户，比后一名多多少

select user_id,shaliuCount,rank() over(order by shaliuCount desc),
shaliuCount-lead(shaliuCount,1,0) over(order by shaliuCount desc)
from t4

------------------组合后的sql----------------------
select user_id,shaliuCount,rank() over(order by shaliuCount desc),
shaliuCount-lead(shaliuCount,1,0) over(order by shaliuCount desc)
from (select user_id, floor((sumCarbon-huyangCarbon)/shaliuCarbon) shaliuCount
from
(select user_id,sum(low_carbon) sumCarbon
from user_low_carbon
where regexp_replace(data_dt,'/','-') between '2017-1-1' and '2017-10-1'
group by user_id )t1
join
(select low_carbon huyangCarbon from plant_carbon where plant_id='p004')t2
join
(select low_carbon shaliuCarbon from plant_carbon where plant_id='p002')t3
order by shaliuCount desc
limit 11)t4

三、题目二
问题：查询user_low_carbon表中每日流水记录，条件为：
用户在2017年，连续三天（或以上）的天数里，
每天减少碳排放（low_carbon）都超过100g的用户低碳流水。
需要查询返回满足以上条件的user_low_carbon表中的记录流水。

1. 先按用户每日汇总碳排放量，
2.

plant_carbon.plant_id | plant_carbon.plant_name | plant_carbon.low_carbon
user_low_carbon.user_id | user_low_carbon.data_dt | user_low_carbon.low_carbon
①过滤2017年的数据，统计每个用户每天共收集了多少碳

select user_id,regexp_replace(data_dt,'/','-') dt,sum(low_carbon) carbonPerDay
from user_low_carbon
where year(regexp_replace(data_dt,'/','-'))=2017
group by user_id,data_dt
having carbonPerDay >= 100 //t1

②过滤复合连续3天的数据
如果判断当前记录复合连续三天的条件？
a)如果当前日期位于连续三天中的第一天，使用当前日期减去当前日期后一天的日期，差值一定为-1
使用当前日期减去当前日期后二天的日期，差值一定为-2

b)如果当前日期位于连续三天中的第二天，使用当前日期减去当前日期前一天的日期，差值一定为1
使用当前日期减去当前日期后一天的日期，差值一定为-1

c)如果当前日期位于连续三天中的第三天，使用当前日期减去当前日期前一天的日期，差值一定为1
使用当前日期减去当前日期前二天的日期，差值一定为2

满足a,b,c其中之一，当前日期就复合要求

求当前日期和当前之前，前1，2天和后1，2天日期的差值

select user_id,dt,carbonPerDay,
datediff(dt,lag(dt,1,'1970-1-1') over(partition by user_id order by dt)) pre1diff,
datediff(dt,lag(dt,2,'1970-1-1') over(partition by user_id order by dt)) pre2diff,
datediff(dt,lead(dt,1,'1970-1-1') over(partition by user_id order by dt)) after1diff,
datediff(dt,lead(dt,2,'1970-1-1') over(partition by user_id order by dt)) after2diff
from t1 //t2

③过滤数据
select user_id,regexp_replace(dt,'-','/') newdt,carbonPerDay
from t2
where (after1diff=-1 and after2diff=-2) or (pre1diff=1 and after1diff=-1) or (pre1diff=1 and pre2diff=2) //t3

④关联原表，求出每日的流水
select u.*
from t3 join user_low_carbon u
on t3.user_id=u.user_id and t3.newdt=u.data_dt

----------------------组合最终SQL-------------------
select u.*
from
(select user_id,regexp_replace(dt,'-','/') newdt,carbonPerDay
from
(select user_id,dt,carbonPerDay,
datediff(dt,lag(dt,1,'1970-1-1') over(partition by user_id order by dt)) pre1diff,
datediff(dt,lag(dt,2,'1970-1-1') over(partition by user_id order by dt)) pre2diff,
datediff(dt,lead(dt,1,'1970-1-1') over(partition by user_id order by dt)) after1diff,
datediff(dt,lead(dt,2,'1970-1-1') over(partition by user_id order by dt)) after2diff
from (select user_id,regexp_replace(data_dt,'/','-') dt,sum(low_carbon) carbonPerDay
from user_low_carbon
where year(regexp_replace(data_dt,'/','-'))=2017
group by user_id,data_dt
having carbonPerDay >= 100)t1 )t2
where (after1diff=-1 and after2diff=-2) or (pre1diff=1 and after1diff=-1) or (pre1diff=1 and pre2diff=2))t3 join user_low_carbon u
on t3.user_id=u.user_id and t3.newdt=u.data_dt

四、题目二解法二

①过滤2017年的数据，统计每个用户每天共收集了多少碳

如何判断当前数据是连续的？
如何理解连续？
当前有A,B两列，A列的起始值从a开始，B列的起始值从b开始,
假设A列每次递增X，B列每次递增Y。
如果A列和B列都是连续递增！A列和B列之间的差值，总是相差(x-y)。
如果X=Y，A列和B列之间的差值，总是相差0。

A B
1. a b a-b
2. a+X b+Y (a-b)+(x-y)
3. a+2x b+2y (a-b)+2(x-y)
4. a+3x b+3y
n a+(n-1)x b+(n-1)y

1 1 0 0
4 2 2 3
7 3 4 6
10 4 6 9
13 5 8
16 6 10 差值相差2

2 1 1
3 2 1
4 3 1
5 4 1
6 5 1 差值相差0
判断日期是连续的？连续的日期，每行之间的差值为1
连续的日期每次递增1，再提供一个参考列，这个参考列每次也是递增1
dt，从2017-1-1开始递增，每次递增1
B列，从1开始递增，每次递增1
如果dt列和B列都是连续的！
此时 dt列-B列=每行的差值
每行的差值之间的差值，一定等于0，每行之间的差值相等！
dt 列B diff
2017-1-1 1 2016-12-31
2017-1-3 2 2017-1-1
2017-1-5 3 2017-1-2
2017-1-6 4 2017-1-2
2017-1-7 5 2017-1-2
2017-1-8 6 2017-1-2
2017-1-12 7 2017-1-5
2017-1-13 8 2017-1-5
2017-1-15 9 2017-1-6
2017-1-16 10 2017-1-6
2017-1-17 11 2017-1-6

//判断连续
select user_id,dt,carbonPerDay,date_sub(dt,row_number() over(partition by user_id order by dt)) diff
from t1 //t2

//判断连续的天数超过3天

select user_id,dt,carbonPerDay,diff,count(*) over(partition by user_id,diff) diffcount
from t2 //t3

// 过滤超过3天的数据
select user_id,dt
from t3
where diffcount>=3 //t4

// 关联原表求出结果即可

posted @ 2020-12-03 11:12 [行者] 阅读(164) 评论(0) 收藏举报

刷新页面返回顶部

[行者terry]

Hive 窗口函数使用（3）--蚂蚁种树

公告