随笔分类 -  大数据 / flink

摘要:flink基本原理 stratosphere架构 dataflow模型 无界,有界 窗口:固定窗口,滑动窗口,会话窗口 时间域和水位线 分布式异步快照 chandy-lamport ABS 异步屏障快照 flink基本设计思想 stratosphere系统架构 dataflow模型 分布式异步快照算 阅读全文
posted @ 2025-03-20 19:30 钱塘江畔 阅读(6) 评论(0) 推荐(0)
摘要:1. 背景 测试环境连接kafka 2. 步骤 将以下两个jar包上传至./lib目录 flink-connector-kafka_2.11-1.12.7.jar kafka-clients-2.4.1.jar 启动sql-client ./bin/sql-client.sh embedded > 阅读全文
posted @ 2022-06-10 16:08 钱塘江畔 阅读(327) 评论(0) 推荐(0)
摘要:1. 背景 在FlinkSQL任务提交时./bin/flink run -c com.stream.PhotoResult ./flinksqldemo-1.0-SNAPSHOT-jar-with-dependencies.jar,报错如下: Caused by: java.lang.ClassCa 阅读全文
posted @ 2022-02-27 18:00 钱塘江畔 阅读(599) 评论(0) 推荐(0)
摘要:maven依赖 <!-- flink Web UI --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web_${scala.binary.version}</artifactId> <ver 阅读全文
posted @ 2022-02-09 23:01 钱塘江畔 阅读(466) 评论(0) 推荐(0)
摘要:# 1. 启动集群 ./bin/start-cluster.sh # 2. 启动yarn-session ./bin/yarn-session.sh -n 1 -jm 1024 -tm 1024 -s 1 -nm yarn-session-jobs -d 参数说明: -n : 指定number of 阅读全文
posted @ 2022-02-09 13:28 钱塘江畔 阅读(177) 评论(0) 推荐(0)
摘要:1. 背景 FlinkSQL双流关联时,mysql流未能捕捉到Mysql表更新,所以尝试使用FlinkCDC解决此问题。 2022-3-31 21:31:39 语法使用不当导致的未能捕捉,修改后可以。但是FlinkCDC研究下也没坏处。 2. 代码 2.1 使用 StreamExecutionEnv 阅读全文
posted @ 2022-01-27 11:37 钱塘江畔 阅读(1000) 评论(0) 推荐(0)
摘要:1. 简介 The Upsert Kafka connector allows for reading data from and writing data into Kafka topics in the upsert fashion. Upsert Kafka 连接器允许以 upsert 方式从 阅读全文
posted @ 2022-01-24 20:20 钱塘江畔 阅读(1244) 评论(0) 推荐(0)
摘要:1. 背景 对于实时更新的维表,以什么组件来处理作为FlinkSQL的source维表?HBase?Kafka?或mysql?哪一种方案能得到正确结果? 且需要考虑到事实表和维表关联的时候,是否需要和维表的历史版本关联?还是只关联维表的最新版本? 下文以只关联维表的最新版本为目标进行测试。 2. 实 阅读全文
posted @ 2022-01-24 20:09 钱塘江畔 阅读(3145) 评论(0) 推荐(0)
摘要:两个概念 处理时间:流处理算子所在机器的本地时间。 事件时间:数据流中事件发生的实际时间,一般是附加在数据流中事件的时间戳。 watermark -- 事件时间窗口的触发时机 实际生产中,事件不可避免会产生延迟,如何判断某一时间点之前的事件都已接收到,从而触发流处理算子工作?Flink提供了水位线机 阅读全文
posted @ 2022-01-24 18:49 钱塘江畔 阅读(124) 评论(0) 推荐(0)
摘要:1. 背景 在FlinkSQL关联时,必然会涉及到维表,维表又可能是不断变化的(aka 时态表 或 版本表)。 版本表: 如果时态表中的记录可以追踪和并访问它的历史版本,这种表我们称之为版本表,来自数据库的 changelog 可以定义成版本表。 普通表: 如果时态表中的记录仅仅可以追踪并和它的最新 阅读全文
posted @ 2022-01-24 17:54 钱塘江畔 阅读(506) 评论(0) 推荐(0)
摘要:1. 背景 对FlinkSQL的聚合运算实践后select .. count(*) .. where .. group by ..,再对join关联做一些实践。 2. 代码 StreamExecutionEnvironment env = StreamExecutionEnvironment.get 阅读全文
posted @ 2022-01-24 14:16 钱塘江畔 阅读(156) 评论(0) 推荐(0)
摘要:1. 背景 FlinkSQL在各个大厂实践地火热,咱也不能落后,搞起。 2. join类型 - 来自官网 Flink SQL supports complex and flexible join operations over dynamic tables. There are several di 阅读全文
posted @ 2022-01-23 23:50 钱塘江畔 阅读(808) 评论(0) 推荐(0)
摘要:1. 背景 昨天《FlinkSQL实践记录1》对FlinkSql做了简单的使用insert into .. select ..,今天对聚合运算做一些实践。 2. 代码实践 String mysql_sql = "CREATE TABLE mysql_sink (" + " name STRING," 阅读全文
posted @ 2022-01-23 11:49 钱塘江畔 阅读(2657) 评论(0) 推荐(0)
摘要:1.背景 Flink目前在国内发展的火热,笔者在2018首次接触了flink之后,总是在官网/公众号各个地方追踪它的新动态,但一直没机会在生产上使用,近期有流式计算的需求,且目前企业对计算的实时性也要求越来越高,今天先在本地环境测试一把。测试把kafka中数据通过flink处理后写入mysql。 环 阅读全文
posted @ 2022-01-22 17:25 钱塘江畔 阅读(823) 评论(0) 推荐(0)