Flink的窗口类型详解

无限数据流的统计问题

今天给大家分享一下Flink的Windows。Hive的窗口函数其实跟MySQL的差不多，因为他们都是基于离线数据的聚合。Flink的windows和Hive的窗口函数不完全一样。

离线数据处理好理解，数据已经落地在一张表里，咱可以通过partition by，按照某个字段进行分区，通过order进行排序，通过between进行范围限定，然后通过LEAD、FIRST_VALUE等进行定位，最后通过sum、avg等聚合函数进行计算。这就像计算图片中有多少个植物一样清晰明了。实在不行，咱硬数也是能行的。

但是Flink里的数据是个流，数据压根就不会落地，这咋进行计算啊？这是一个“无限游戏”啊！好比你得算一下植物大战僵尸里被射出多少颗豌豆子弹一样。非要计算，就只能永远计算一个不断增大的累计数而已。

除非咱能像截图一样，让数据停下来，然后咱再一颗一颗去数，否则根本没法算清楚范围内有多少颗豌豆子弹。这根本没法分析啊！

Flink的窗口类型

Flink是怎么解决这个问题的呢？很简单，设置一个固定的观察窗口，不停的计算窗口内的豌豆子弹数就可以了。这样就把无限数据流，变成有限数据块了。这样问题就解决了。

但是，有个问题，怎么划分窗口的范围呢？也就是说，如何切割窗口呢？几个办法：

1、用时间切割窗口，每过N秒记为一个window，即TimeWindow；

2、用数据量切割窗口，每N个数据记为一个window，即CountWindow；

3、用session切割窗口，数据流中断N秒记为一个window，即Sessionwindow；

4、不限定，从一开始到现在不断累计计算，即global window。这种状态下，Flink并行度只能为1。

另外，对于TimeWindow和CountWindow，分别还有两种细分类型：滚动窗口和滑动窗口。

滚动窗口就是一个固定区间（时间或者数量），不断滚动，区间严格分离，不会重复。

滑动窗口顾名思义，就是窗口区间是可以拖动的，所以会重复。

对了，针对数据本身，Flink还设置了keyed和non keyed两种windows，这是为了后续处理用的。其实就是解决你是否要区分子弹类型的：

如果用了keyed windows，Flink会把相同key的数据发送到同一个task里进行处理，这样并行度就高了。

如果用了Non Keyed Windows，那么所有数据都会放在一个task里操作，并行度也就只能为1了。

总结

Flink的窗口按切割方式、是否有key值、滑动还是滚动三个维度，分为以下几种情况：

基本上这些窗口就能满足所有业务需求了。

posted @ 2021-07-26 10:36 民宿阅读(479) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示

阅读排行：
· 开源Multi-agent AI智能体框架aevatar.ai，欢迎大家贡献代码
· Manus重磅发布：全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY

公告

昵称：民宿
园龄： 3年10个月
粉丝： 78
关注： 2

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类