flink 中的水位线(Watermark)

水位线 Watermark


实时统计使用了flink sql程序,使用flink-TVF表值函数滚动窗口按分钟进行数据聚合操作,消费的kafka数据需要在规定的时间窗口内进行推送数据并消费计算,
为了解决处理乱序事件或延迟数据引入了Watermark,用来设置延迟计算时间等待迟到的数据,但不能无限期的等下去,必须要有个机制来保证一个特定的时间后,触发window去进行计算,
超过Watermark水位线时间戳的数据将被丢弃,被认为违流式计算的初衷。(Watermark时间设置不宜过长,在TPS很高的场景下会产生大量的Watermark在一定程度上对下游算子造成压力)


posted @ 2024-03-08 10:12  whiteY  阅读(130)  评论(0编辑  收藏  举报