Flink - [04] 窗口(Windows)
题记部分
一、Flink中的窗口是什么
(1)一般真实的流都是无界的,怎样处理无界的数据?
(2)可以把无限的数据流进行切分,得到有限的数据集进行处理 —— 也就是得到有界流
(3)窗口(Window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析。
二、窗口类型
(1)时间窗口(Time Window)
① 滚动时间窗口(tumbling time window):.timeWindow(Time.seconds(15))
② 滑动时间窗口(sliding time window):.timeWindow(Time.seconds(15),Time.seconds(5))
③ 会话窗口(session window):.window(EventTimeSessionWindows.withGop(Time.minutes(10)))
(2)计数窗口(Count Window)
① 滚动计数窗口(tumbling count window):.countWindow(5)
② 滑动计数窗口(sliding count window):.countWindow(10,2)
2.1、滚动窗口(Tumbling Windows)
2.2、滑动窗口(Sliding Windows)
2.3、会话窗口(Session Windows)
三、Window API
(1)窗口分配器 —— window()
方法
(2)我们可以用.window()
来定义一个窗口,然后基于这个window去做一些聚合或者其它处理操作。
(3)window()
方法必须在keyBy之后才能使用。
(4)Flink提供了更加简单的.timeWindow
和.countWindow
方法,用于定义时间窗口和计数窗口。
val minTempPerWindow = dataStream
.map(r => (r.id,r.temperature))
.keyBy(_._1)
.timeWindow(Time.seconds(15))
.reduce((r1,r2) => (r1._1,r2.min(r2._2)))
四、窗口分配器
(1)window()方法接收的输入参数是一个WindowAssigner
(2)WindowAssigner负责将每条输入的数据分发到正确的window中
(3)Flink提供了通用的WindowAssigner
① 滚动窗口(tumbling window)
② 滑动窗口(sliding window)
③ 会话窗口(session window)
④ 全局窗口(global window)
五、窗口函数
window function定义了要对窗口中收集的数据做的计算操作,可以分为两类
(1)增量聚合函数(incremental aggregation functions)
- 每条数据到来就进行计算,保持一个简单的状态
- ReduceFunction、AggregateFunction
(2)全窗口函数(full window functions)
- 先把窗口所有数据收集起来,等到计算的时候会遍历所有数据
- ProcessWindowFunction
六、其他API
(1).trigger()
:触发器,定义window什么时候关闭,触发计算并输出结果;
(2).evitor()
:移除器,定义移除某些数据的逻辑;
(3).allowedLateness()
:允许处理迟到的数据
(4).sideOutputLateData()
:将迟到的数据放入侧输出流
(5).getSideOutput()
:获取侧输出流
— 业精于勤荒于嬉,行成于思毁于随 —
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南