Flink - [04] 窗口(Windows)

题记部分

 

一、Flink中的窗口是什么

(1)一般真实的流都是无界的,怎样处理无界的数据?

(2)可以把无限的数据流进行切分,得到有限的数据集进行处理 —— 也就是得到有界流

(3)窗口(Window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析。

 

二、窗口类型

(1)时间窗口(Time Window)

  ① 滚动时间窗口(tumbling time window):.timeWindow(Time.seconds(15))

  ② 滑动时间窗口(sliding time window):.timeWindow(Time.seconds(15),Time.seconds(5))

  ③ 会话窗口(session window):.window(EventTimeSessionWindows.withGop(Time.minutes(10)))

(2)计数窗口(Count Window)

  ① 滚动计数窗口(tumbling count window):.countWindow(5)

  ② 滑动计数窗口(sliding count window):.countWindow(10,2)

 

2.1、滚动窗口(Tumbling Windows)

 

2.2、滑动窗口(Sliding Windows)

 

2.3、会话窗口(Session Windows)

 

 

三、Window API

(1)窗口分配器 —— window()方法

(2)我们可以用.window()来定义一个窗口,然后基于这个window去做一些聚合或者其它处理操作。

(3)window()方法必须在keyBy之后才能使用。

(4)Flink提供了更加简单的.timeWindow.countWindow方法,用于定义时间窗口和计数窗口。

val minTempPerWindow = dataStream
    .map(r => (r.id,r.temperature))
    .keyBy(_._1)
    .timeWindow(Time.seconds(15))
    .reduce((r1,r2) => (r1._1,r2.min(r2._2)))

 

四、窗口分配器

(1)window()方法接收的输入参数是一个WindowAssigner

(2)WindowAssigner负责将每条输入的数据分发到正确的window中

(3)Flink提供了通用的WindowAssigner

  ① 滚动窗口(tumbling window)

  ② 滑动窗口(sliding window)

  ③ 会话窗口(session window)

  ④ 全局窗口(global window)

 

五、窗口函数

window function定义了要对窗口中收集的数据做的计算操作,可以分为两类

(1)增量聚合函数(incremental aggregation functions)

  • 每条数据到来就进行计算,保持一个简单的状态
  • ReduceFunction、AggregateFunction

 

(2)全窗口函数(full window functions)

  • 先把窗口所有数据收集起来,等到计算的时候会遍历所有数据
  • ProcessWindowFunction

 

六、其他API

(1).trigger():触发器,定义window什么时候关闭,触发计算并输出结果;

(2).evitor():移除器,定义移除某些数据的逻辑;

(3).allowedLateness():允许处理迟到的数据

(4).sideOutputLateData():将迟到的数据放入侧输出流

(5).getSideOutput():获取侧输出流

 

 

 

 

— 业精于勤荒于嬉,行成于思毁于随 —

posted @ 2024-06-17 15:32  HOUHUILIN  阅读(2)  评论(0编辑  收藏  举报