摘要: Zeppelin 阅读全文
posted @ 2020-05-10 19:46 王晓天 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 1、新建一个窗口算子需指定两个窗口组件 1)窗口分配器(window assigner),决定如何划分窗口,比如每5秒一个窗口(左闭右开区间),按照事件时间或者处理时间划分; 2)窗口函数,决定如何处理窗口中的元素 2、DataStream API 中的多种内置窗口分配器 1)滚动窗口(Tumbli 阅读全文
posted @ 2020-04-19 21:58 王晓天 阅读(727) 评论(0) 推荐(0) 编辑
摘要: 基于 Kafka, MySQL, Elasticsearch, Kibana,使用 Flink SQL 构建电商用户行为的实时分析应用。Flink SQL 可轻松连接各种外部系统,原生支持事件时间和乱序数据处理、维表关联,有丰富的内置函数等。 1)购买腾讯云服务器,安装Java 13.0.2,安装D 阅读全文
posted @ 2020-03-26 23:26 王晓天 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 1. 从Spring Boot下载项目 https://spring.io/guides/gs/accessing-data-mysql/ 2. 配置Spring Boot连接MySQL(位置:resources/application.properties) spring.jpa.hibernat 阅读全文
posted @ 2020-02-13 20:31 王晓天 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 看反压 通常最后一个被压高的subTask的下游就是job的瓶颈之一 看checkpoint时长 checkpoint时长能在一定程度影响job的整体吞吐 看核心指标 延迟和吞吐是最重要的指标 资源使用率 提高资源利用率是最终目的。排查首先看GC 常见性能问题 JSON序列化和反序列化 MAP和Se 阅读全文
posted @ 2020-02-09 10:47 王晓天 阅读(535) 评论(0) 推荐(0) 编辑
摘要: reference: https://tech.meituan.com/2018/10/18/meishi data flink.html 阅读全文
posted @ 2020-02-08 13:53 王晓天 阅读(168) 评论(0) 推荐(0) 编辑
摘要: DataFlow编程概述 1. DataFlow图 逻辑图和物理图 2. 数据并行和任务并行 3. 数据交换策略 转发 广播 基于健值 随机 并行流处理 1. 延迟和吞吐 2. 数据流上的操作 数据接入和数据输出 转换操作 滚动聚合 窗口操作 滚动窗口 滑动窗口 会话窗口 时间语义 1. 流处理场景 阅读全文
posted @ 2020-02-04 16:08 王晓天 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 事件时间:将处理速度和结果内容彻底解耦。基于事件时间的操作是可预测的,其结果具有确定性。使用事件时间的挑战之一是如何处理延迟事件。 处理时间:处理事件的时间,适用于更重视处理速度而非准确度的应用。 水位线:时间戳小于或等于T的事件都已到达。收到watermark,就相当于接到信号:某个特定时间区间的 阅读全文
posted @ 2020-02-04 11:11 王晓天 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 1、同时支持事件时间和处理时间语义。事件时间语义能够针对无序事件提供精确、一致的结果;处理时间语义能够用在具有极低延迟需求的应用中。 2、提供精确一次(exactly once)的状态一致性保障。 3、层次化的API在表达能力和易用性方面各有权衡。表达能力由强到弱(易用性由弱到强)依次是:Proce 阅读全文
posted @ 2020-02-04 09:34 王晓天 阅读(4570) 评论(0) 推荐(0) 编辑
摘要: the protocol consists of two phases: The commit-request phase (or voting phase), in which a coordinator process attempts to prepare all the transactio 阅读全文
posted @ 2020-02-03 16:25 王晓天 阅读(802) 评论(0) 推荐(0) 编辑