hive窗口函数LAG/LEAD
Qusetion:
有一张hive表test,三列分别是user_id, click_id, click_time,即用户、点击id、点击时间。
需要计算用户点击时间差,就需要找到用户每个点击对应的最近一次点击时间。
user1 A 1573001309214
user1 B 1573043128833
user1 C 1573043810520
user1 D 1573043929952
user1 E 1573043914374
user1 F 1572994687046
user1 G 1572994687915
user1 H 1573043779651
user2 I 1572995016055
user2 J 1573046856088
user2 K 1573046893571
user2 L 1572981865480
user2 M 1572995095611
user2 N 1572974591103
Answer:
select user_id, click_id, click_time,
LAG(click_time, 1) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_click_time
from test;
结果:最后一列就是用户该次点击对应的最近一次点击时间。第一行F事件是user1的第一个点击,所以没有上一条。
解释:
OVER(PARTITION BY user_id ORDER BY click_time asc)
含义:按user_id 列分组,组内按click_time 列排序,asc 表示增序(desc 降序)
LAG函数用法
LAG(col,n,DEFAULT) 用于统计窗口内往上第n行。
col 参数是列名
n 参数是指窗口内当前行往上第n行
DEFAULT 参数为默认值(当往上第n行为NULL的时候取默认值,如果不指定,就是NULL)
LEAD函数用法
LEAD(col, n, DEFAULT),用于统计窗口内向下第n行
col 参数是列名
n 参数是指窗口内当前行向下第n行
DEFAULT 参数为默认值(当向下第n行为NULL的时候取默认值,如果不指定,就是NULL)
例如,在test表中,取出每个点击对应的后面的第2个点击。
select user_id, click_id, click_time,
LEAD(click_time, 2) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_two_click_time
from test;
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!