2020年11月29日
摘要: Windows 计算是流式计算中非常常用的数据计算方式之一,通过按照固定时间或长度将数据流切分成不同的窗口,然后对数据进行相应的聚合运算,从而得到一定时间范围内的统计结果。例如统计最近 5 分钟内某基站的呼叫数,此时基站的数据在不断地产生,但是通过5 分钟的窗口将数据限定在固定时间范围内,就可以对该 阅读全文
posted @ 2020-11-29 21:29 古堡里一片荒芜 阅读(1306) 评论(0) 推荐(0) 编辑
摘要: Savepoints 是检查点的一种特殊实现,底层实现其实也是使用 Checkpoints 的机制。Savepoints 是用户以手工命令的方式触发 Checkpoint,并将结果持久化到指定的存储路径中,其主要目的是帮助用户在升级和维护集群过程中保存系统中的状态数据,避免因为停机运维或者升级应用等 阅读全文
posted @ 2020-11-29 20:50 古堡里一片荒芜 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 案例:设置 HDFS 文件系统的状态后端,取消 Job 之后再次恢复 Job。查看其状态是否连续? 代码示例: import org.apache.flink.api.scala.createTypeInformation import org.apache.flink.runtime.state. 阅读全文
posted @ 2020-11-29 17:00 古堡里一片荒芜 阅读(473) 评论(0) 推荐(0) 编辑
摘要: CheckPoint 当程序出现问题需要恢复 Sate 数据的时候,只有程序提供支持才可以实现 State 的容错。State 的容错需要依靠 CheckPoint 机制,这样才可以保证 Exactly-once 这种语义,但是注意,它只能保证 Flink 系统内的 Exactly-once,比如 阅读全文
posted @ 2020-11-29 16:54 古堡里一片荒芜 阅读(2492) 评论(0) 推荐(0) 编辑
摘要: Flink 是一个默认就有状态的分析引擎,前面的 WordCount 案例可以做到单词的数量的累加,其实是因为在内存中保证了每个单词的出现的次数,这些数据其实就是状态数据。但是如果一个 Task 在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义(At 阅读全文
posted @ 2020-11-29 00:18 古堡里一片荒芜 阅读(309) 评论(0) 推荐(0) 编辑