08 2019 档案
【源码解析】Flink 是如何处理迟到数据
摘要:相信会看到这篇文章的都对Flink的时间类型(事件时间、处理时间、摄入时间)和Watermark有些了解,当然不了解可以先看下官网的介绍:https://ci.apache.org/projects/flink/flink-docs-master/dev/event_time.html 这里就会有这 阅读全文
posted @ 2019-08-24 19:11 Flink菜鸟 阅读(2598) 评论(0) 推荐(0)
Flink assignAscendingTimestamps 生成水印的三个重载方法
摘要:先简单介绍一下Timestamp 和Watermark 的概念: Flink 在流上手动生成水印有三个重载的方法(忽略过期的一个) assignTimestamps(extractor: TimestampExtractor[T]): DataStream[T] 此方法是数据流的快捷方式,其中已知元 阅读全文
posted @ 2019-08-24 09:56 Flink菜鸟 阅读(6140) 评论(0) 推荐(0)
【翻译】生成 Timestamps / Watermarks
摘要:本文翻译自flink官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/dev/event_timestamps_watermarks.html Assigning Timestamps Source Functions wi 阅读全文
posted @ 2019-08-24 09:52 Flink菜鸟 阅读(895) 评论(0) 推荐(0)
【翻译】The Broadcast State Pattern(广播状态)
摘要:本文翻译自官网:The Broadcast State Pattern Provided APIs (提供的api) BroadcastProcessFunction and KeyedBroadcastProcessFunction Important Considerations (注意事项) 阅读全文
posted @ 2019-08-16 10:37 Flink菜鸟 阅读(862) 评论(1) 推荐(1)
基于Broadcast 状态的Flink Etl Demo
摘要:接上文: 【翻译】The Broadcast State Pattern(广播状态) 最近尝试了一下Flink 的 Broadcase 功能,在Etl,流表关联场景非常适用:一个流数据量大,一个流数据量小(配置表)需要更新 业务逻辑如下: 注: 正常情况广播流只有一个输出源,更新也在这个源里,这里做 阅读全文
posted @ 2019-08-15 14:10 Flink菜鸟 阅读(3378) 评论(0) 推荐(0)
git 更新fork的远程仓库
摘要:1、添加远程仓库到本地remote分支 2、查看当前仓库的远程分支 3、fetch 远程分支 4、合并 fetch 的分支到本地master 5、查看log最近更新日志 6、推送本地master 到远程仓库(自己fork的仓库) 阅读全文
posted @ 2019-08-14 10:56 Flink菜鸟 阅读(5667) 评论(1) 推荐(1)
Flink 在IDEA执行时的webui
摘要:不过Flink IDEA中执行的webui 需要 flink-runtime-web 包的支持 pom 如下: 启动日志如下: flink webui监听地址如下: http://localhost:2841 打开对应地址: 进入job: Metrics 也正常: 不过 logs 和 Stdout 阅读全文
posted @ 2019-08-13 10:28 Flink菜鸟 阅读(8254) 评论(0) 推荐(1)