FlinkV1.3官网简述
Flink简介:
针对无界数据集的持续计算
1、数据是源源不断的产生的,就是水流一样。
2、stream总有结束的时候。
数据集类型
1、无界:不断产生的数据
2、有界:最终,不再改变的数据集
有界数据集是无界数据集的一个特例;有界数据集在flink内部是以一种终态数据进行处理的;在flink中有界和无界的差别非常小;使用同一套流计算执行引擎上的API操作两种数据集类型。
两种执行模型
1、流计算:数据不断产生,就一直处于计算状态。
2、批处理:完成一定时间段的计算任务后,释放资源。
Flink特点:
1、结果精准,即使是无序数据或者延迟到达的数据。
2、有状态以及容错。维护精准一次的应用状态。
3、大规模计算,几千台节点上运算,高吞吐量和低延迟的特点。
4、flink通过检查点机制实现精准一次的计算保证,在故障时可以体现出来。
5、flink支持流计算以及窗口化操作。
6、flink支持灵活的基于时间窗口的计算。
7、flink容错是轻量级。即:占用资源少。可以保证零数据丢失。
8、flink是高吞吐量和低延迟的。
Flink自下而上的构架层次:
见:https://www.cnblogs.com/wynjauu/articles/10505110.html中的Flink构架图。
总之:Flink是开源的计算引擎,消除了性能和可靠性的权衡。