【大数据技术】Flink

“下一代大数据处理引擎王者” Apache Flink

它既能保证数据一致性“Exactly Once",又能实时快速的处理海量数据。与生俱来的 Watermark 功能让它能对复杂数据乱序场景应对自如,它充分体现了“批”、“流”一体的完美结合同时又代表着“流”、“表”二象性的和谐统一。

 

两种数据集:无边界数据集(连续不断追加)和有边界数据集

两种执行模式 

- 流式传输(Streaming) :只要数据生成,连续执行的处理 

- 批处理(Batch):在有限的时间内执行并运行到完整的处理,完成后释放计算资源

 

使用任一类型的执行模型来处理任一类型的数据集都是可能的,但不一定是最优的。
Flink依赖于流式处理模型,这是一种适用于处理无界数据集的流程:流执行是对连续生成的数据进行连续处理。

 

 

Flink是分布式流处理的开源框架:

提供准确的结果,即使在无序或延迟数据的情况下也是如此

具有状态和容错能力,可以在保持应用状态的同时无故障地从故障中恢复

大规模执行,在数千个节点上运行,具有非常好的吞吐量和延迟特性

 

 

状态管理,无序数据处理,灵活的窗口 - 对于Flink来说在无界数据集上计算的结果准确性至关重要.

Flink保证用于状态计算的一次性语义。“有状态”意味着应用程序可以维护一段时间内已处理的数据的聚合或汇总,Flink的检查点机制可以确保在发生故障时应用程序状态的一致性语义。

Flink支持流处理和窗口与事件时间语义,事件时间使得计算准确的结果变得容易,这些流可能产生无序数据或者数据延迟到达的情况。

除了数据驱动的窗口之外,Flink还支持基于时间,计数或会话的灵活窗口。Windows可以通过灵活的触发条件进行定制,以支持复杂的流式传输模式。Flink的窗口使得可以对创建数据的环境的现实进行建模。

 

 

参考文档

Flink简介

 

posted @ 2018-11-21 08:32  李子恒  阅读(296)  评论(0编辑  收藏  举报