摘要: DataFlow编程概述 1. DataFlow图 逻辑图和物理图 2. 数据并行和任务并行 3. 数据交换策略 转发 广播 基于健值 随机 并行流处理 1. 延迟和吞吐 2. 数据流上的操作 数据接入和数据输出 转换操作 滚动聚合 窗口操作 滚动窗口 滑动窗口 会话窗口 时间语义 1. 流处理场景 阅读全文
posted @ 2020-02-04 16:08 王晓天 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 事件时间:将处理速度和结果内容彻底解耦。基于事件时间的操作是可预测的,其结果具有确定性。使用事件时间的挑战之一是如何处理延迟事件。 处理时间:处理事件的时间,适用于更重视处理速度而非准确度的应用。 水位线:时间戳小于或等于T的事件都已到达。收到watermark,就相当于接到信号:某个特定时间区间的 阅读全文
posted @ 2020-02-04 11:11 王晓天 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 1、同时支持事件时间和处理时间语义。事件时间语义能够针对无序事件提供精确、一致的结果;处理时间语义能够用在具有极低延迟需求的应用中。 2、提供精确一次(exactly once)的状态一致性保障。 3、层次化的API在表达能力和易用性方面各有权衡。表达能力由强到弱(易用性由弱到强)依次是:Proce 阅读全文
posted @ 2020-02-04 09:34 王晓天 阅读(4570) 评论(0) 推荐(0) 编辑