摘要: 一、部署模式 Flink 支持使用多种部署模式来满足不同规模应用的需求,常见的有单机模式,Standalone Cluster 模式,同时 Flink 也支持部署在其他第三方平台上,如 YARN,Mesos,Docker,Kubernetes 等。以下主要介绍其单机模式和 Standalone Cl 阅读全文
posted @ 2020-06-28 11:09 数据驱动 阅读(3082) 评论(0) 推荐(0) 编辑
摘要: 一、状态分类 相对于其他流计算框架,Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存,并提供给后续的计算使用: 具体而言,Flink 又将状态 (State) 分为 Operator State 与 Keyed State: 2.1 算子状态 算子状态 (Oper 阅读全文
posted @ 2020-06-28 10:44 数据驱动 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 一、窗口概念 在大多数场景下,我们需要统计的数据流都是无界的,因此我们无法等待整个数据流终止后才进行统计。通常情况下,我们只需要对某个时间范围或者数量范围内的数据进行统计分析:如每隔五分钟统计一次过去一小时内所有商品的点击量;或者每发生1000次点击后,都去统计一下每个商品点击率的占比。在 Flin 阅读全文
posted @ 2020-06-28 09:15 数据驱动 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 一、Data Sinks 在使用 Flink 进行数据处理时,数据经 Data Source 流入,然后通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 阅读全文
posted @ 2020-06-28 08:46 数据驱动 阅读(1252) 评论(0) 推荐(0) 编辑
摘要: 一、Transformations 分类 Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。它主要分为以下三类: DataStream Transformations:进行数据流相关转换操作; Physical pa 阅读全文
posted @ 2020-06-28 07:44 数据驱动 阅读(286) 评论(0) 推荐(0) 编辑