2023年4月18日

构建私有仓库 flink image 镜像

摘要: 准备flink-*.tar.gz 可以自己编译,或者下载 编译 cd ${flink-root} mvn install -DskipTests # 编译成功后,压缩成tar.gz cd ./flink-dist/target/ tar -cvf flink-1.18-SNAPSHOT-bin.ta 阅读全文

posted @ 2023-04-18 17:45 chouc 阅读(381) 评论(0) 推荐(0) 编辑

2023年3月8日

Flink SideOutput 和 Filter 分流对比

摘要: Flink 分流有Filter、Split(已经废弃移除)、Side Output进行分流,到底时有什么区别,哪个种更好呢? 对比 代码对比 直接上代码对比: import org.apache.flink.streaming.api.datastream.DataStreamSource; imp 阅读全文

posted @ 2023-03-08 11:35 chouc 阅读(239) 评论(0) 推荐(0) 编辑

2022年6月7日

Flink OutputTag 为什么需要加 "{}"

摘要: Flink OutputTag 为什么需要加 "{}" 结论 先给出结论,OutputTag 可以加 也可以不加 // case 1 不加 {} ,运行时会报错 OutputTag<String> stringOutputTg = new OutputTag<String>("a"); // cas 阅读全文

posted @ 2022-06-07 21:28 chouc 阅读(1089) 评论(0) 推荐(0) 编辑

2022年4月8日

Flink RPC源码

摘要: DEMO Flink RPC 众所周知底层是Akka,我先来写一个RPC 的用例 RPC Gateway public interface HelloGateway extends RpcGateway { CompletableFuture<String> hello(); } RPC Endpo 阅读全文

posted @ 2022-04-08 15:27 chouc 阅读(207) 评论(0) 推荐(0) 编辑

Flink Windows源码

摘要: Windows 属性 Windows 就是基于ListState 和 AggregateState来做的存储,Windows里面有三个重要的属性,Assigner、Trigger、Evictor (非必须)。 WindowsAssigner TumblingEventTimeWindows prot 阅读全文

posted @ 2022-04-08 15:24 chouc 阅读(110) 评论(0) 推荐(0) 编辑

2020年3月8日

ElasticSearch 入门

摘要: [toc] REST Representational State Transfer 一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。 核心算法 正排索引 ES核心算法是倒排索引, 阅读全文

posted @ 2020-03-08 22:59 chouc 阅读(406) 评论(0) 推荐(0) 编辑

2020年2月27日

DStream-04 Window函数的原理和源码

摘要: DStream 中 window 函数有两种,一种是普通 WindowedDStream,另外一种是针对 window聚合 优化的 ReducedWindowedDStream。 Demo 源码 DStream 前提知识 在每个DStream 中会把每个batch 产生的 Rdd 放入Map中,也就 阅读全文

posted @ 2020-02-27 23:11 chouc 阅读(158) 评论(0) 推荐(0) 编辑

2020年2月24日

Spark 的 Listener LisenerBus源码分析

摘要: ListenerBus Spark 很多地方需要对一些事件进行监听或处理,这就涉及到到了 Listener。 比如:当一个Batch完成的时候,需要做什么。当stream 启动时候时候需要做什么等。再具体的例子,就是我想看每个batch 里面的数据量是多少 对于不同场景有不同的 Listener 比 阅读全文

posted @ 2020-02-24 23:10 chouc 阅读(480) 评论(0) 推荐(0) 编辑

2020年2月21日

DStream-03 Kafka offset 原理和源码

摘要: DEMO KafkaUtils 如果创建DirectKafkaInputDStream 时如果没有传 perPartitionConfig 则就会使用 PerPartitionConfig PerPartitionConfig 最关键的就是包含了 spark.streaming.kafka.maxR 阅读全文

posted @ 2020-02-21 17:54 chouc 阅读(265) 评论(0) 推荐(0) 编辑

DStream-02 Checkpoint的真面目

摘要: Dstream Checkpoint 的用法 以上代码可以实现故障恢复和重启时回到之前的offset,但是如果对代码进行修改则无法进行回滚。 Spark源码: 1. 从checkpoint_dir 中读取 Checkpoint 对象,new StreamingContext ,反之读取不到 调用我们 阅读全文

posted @ 2020-02-21 16:43 chouc 阅读(272) 评论(0) 推荐(0) 编辑

导航