【大数据技术】Flink

它既能保证数据一致性“Exactly Once"，又能实时快速的处理海量数据。与生俱来的 Watermark 功能让它能对复杂数据乱序场景应对自如，它充分体现了“批”、“流”一体的完美结合同时又代表着“流”、“表”二象性的和谐统一。

两种数据集：无边界数据集（连续不断追加）和有边界数据集

两种执行模式

- 流式传输(Streaming) :只要数据生成，连续执行的处理

- 批处理(Batch)：在有限的时间内执行并运行到完整的处理，完成后释放计算资源

使用任一类型的执行模型来处理任一类型的数据集都是可能的，但不一定是最优的。
Flink依赖于流式处理模型，这是一种适用于处理无界数据集的流程：流执行是对连续生成的数据进行连续处理。

Flink是分布式流处理的开源框架：

提供准确的结果，即使在无序或延迟数据的情况下也是如此

具有状态和容错能力，可以在保持应用状态的同时无故障地从故障中恢复

大规模执行，在数千个节点上运行，具有非常好的吞吐量和延迟特性

状态管理，无序数据处理，灵活的窗口 - 对于Flink来说在无界数据集上计算的结果准确性至关重要.

Flink保证用于状态计算的一次性语义。“有状态”意味着应用程序可以维护一段时间内已处理的数据的聚合或汇总，Flink的检查点机制可以确保在发生故障时应用程序状态的一致性语义。

Flink支持流处理和窗口与事件时间语义，事件时间使得计算准确的结果变得容易，这些流可能产生无序数据或者数据延迟到达的情况。

除了数据驱动的窗口之外，Flink还支持基于时间，计数或会话的灵活窗口。Windows可以通过灵活的触发条件进行定制，以支持复杂的流式传输模式。Flink的窗口使得可以对创建数据的环境的现实进行建模。

参考文档

posted @ 2018-11-21 08:32 李子恒阅读(333) 评论(0) 收藏举报

刷新页面返回顶部