随笔分类 -  FLINK

1 2 3 4 5 ··· 7 下一页
Flink Cdc MySQL 整库同步到 StarRocks
摘要:这段时间开始调研使用 StarRocks 做准实时数据仓库:flink cdc 实时同步数据到 StarRocks,然后在 StarRocks 中做分层计算,直接把 StarRocks 中的 ADS 层提供给 BI 查询。架构如下: 由于用到的表比较多,不能用 Flink SQL 给每个表都做个 C 阅读全文
posted @ 2023-05-06 16:35 Flink菜鸟 阅读(4860) 评论(3) 推荐(1) 编辑
flink 1.16 读写 hive 表
摘要:flink 版本: 1.6.0 hive 版本: 3.1.2 sqlSubmit commit commit 0de42fabc1a639c3256ad7d074af72f8f2453be5 修改了sql 文件中的 set 命令(set table.sql-dialect=hive;)执行位置, 从 阅读全文
posted @ 2023-02-02 17:14 Flink菜鸟 阅读(1171) 评论(0) 推荐(0) 编辑
flink udaf demo
摘要:flink udaf demo 之前一个小伙伴留言说想看 TableAggregateFunction 的例子吗?以及自定义函数如何使用sql的方式调用? Flink SQL 我都是用开发的 sqlSubmit 工具做的提交,很多时候会忽略 flink sql client 方式,所以这里写了个简单 阅读全文
posted @ 2022-10-21 10:39 Flink菜鸟 阅读(860) 评论(0) 推荐(0) 编辑
flink sql parallelism mysql source
摘要:最近遇到个场景,需要对大表进行 Table Scan,使用官方的 jdbc connect, 发现在执行的时候,如果表的数据量很大(百万级别),在 select 阶段会消耗大量的时间,如下: 任务执行了 9 分钟多,数据才上来,数据上来后,差不多一批就全部上来了 差不多 10 分钟读完,还不能通过增 阅读全文
posted @ 2022-08-10 16:47 Flink菜鸟 阅读(1437) 评论(0) 推荐(2) 编辑
flink lookup join tps 测试 hbase mysql starrocks
摘要:流表关联时数仓 DW 层把表打宽最主要的方式,项目中使用最多的维表存储是 hbase/mysql/redis,分别在大表、小表、高性能查询三种流表关联查询场景 最近调研和使用了一段时间的 starrocks,发现使用 starrocks 做维表的存储好像也很不错,所以做这样一次测试,测试 hbase 阅读全文
posted @ 2022-07-28 09:32 Flink菜鸟 阅读(1273) 评论(1) 推荐(1) 编辑
Flink sql Windowing TVF 增加并行度引发的故事
摘要:上篇:Flink sql Group Windows 窗口源码解析 下篇:Flink sql Windowing TVF 源码解析 之前在 sqlSubmit 项目里面添加了解析 sql 文件中的参数的功能 就随手在一个 window tvf 的 sql 里面添加了设置并行度为 2 的语句 set 阅读全文
posted @ 2022-07-21 17:41 Flink菜鸟 阅读(1325) 评论(0) 推荐(0) 编辑
Flink sql Windowing TVF 源码解析
摘要:接上篇: Flink sql Group Windows 窗口源码解析 上篇写了 Group Windows 的源码解析,Group Windows 的源码是相对好阅读的,核心处理逻辑和 Stream api 一样: Window + trigger + agg function 而 Window 阅读全文
posted @ 2022-07-21 17:41 Flink菜鸟 阅读(812) 评论(0) 推荐(0) 编辑
Flink sql Group Windows 窗口源码解析
摘要:窗口(Window)是 Flink 众多优势之一。 窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理 随着实时数仓和 flink sql 越来越成熟,flink sql 又变成 flink 中最常用的 api 在这种场景下,我们来看看 flink sql 窗口的源码。 (练习一下表达能 阅读全文
posted @ 2022-06-14 18:11 Flink菜鸟 阅读(751) 评论(0) 推荐(0) 编辑
Flink table 窗口聚合提前触发参数
摘要:Flink table 窗口聚合提前触发参数 Flink 版本: 1.15.0 先上参数: # 启动提前触发 # Specifies whether to enable late-fire emit。 Late-fire is an emit strategy after watermark adv 阅读全文
posted @ 2022-06-14 14:06 Flink菜鸟 阅读(1891) 评论(1) 推荐(2) 编辑
Flink sink 到 kafka,并行度与分区的关系
摘要:Flink 版本: 1.15.0 问题 在社区看到以下问题: 请教个问题哈,sink 到 kafka,采用默认的分区器,是不是每个并行度都会与kafka的partition维护一个连接 比如 10 个并行度,3个 partition,那么维护的连接数总共为 10*3 个 ? 是的 还是一个taskM 阅读全文
posted @ 2022-06-01 14:21 Flink菜鸟 阅读(4031) 评论(1) 推荐(1) 编辑
分享flink-connector-mysql-cdc-2.2.0.jar 包
摘要:flink 版本: 1.15.0 编译了一个 基于 flink 1.15.0 的 flink-cdc 2.2.0 flink-connector-mysql-cdc-2.2.0.jar 欢迎关注Flink菜鸟公众号,会不定期更新Flink(开发技术)相关的推文 阅读全文
posted @ 2022-05-30 16:30 Flink菜鸟 阅读(893) 评论(0) 推荐(2) 编辑
Flink sql redis lookup source
摘要:Flink sql redis lookup source flink 版本: 1.14.3 redis lookup source 实现已经有一段时间了,之前实现的只能查询 string/hash 两种类型的数据,查询方式和返回结果都比较死板(hash 只能查某个key/feild 的值),对应其 阅读全文
posted @ 2022-05-13 17:34 Flink菜鸟 阅读(937) 评论(0) 推荐(0) 编辑
Flink 实时统计历史 pv、uv
摘要:Flink 实时统计 pv、uv 的博客,我已经写了三篇,最近这段时间又做了个尝试,用 sql 来计算全量数据的 pv、uv。 Stream Api 写实时、离线的 pv、uv ,除了要写代码没什么其他的障碍 SQL api 来写就有很多障碍,比如窗口没有 trigger,不能操作 状态,udf 不 阅读全文
posted @ 2022-04-18 21:22 Flink菜鸟 阅读(3467) 评论(0) 推荐(0) 编辑
Flink 异步 IO 查 Redis
摘要:Flink 异步 IO 查 Redis 遇到有同学问 Flink 异步 IO 查 Redis 的问题,帮忙解决了一下,刚好水一篇(后续应该会实现 Table Source、Lookup Source) 以前写的异步 IO 查 MySQL: [Flink 异步IO访问外部数据(mysql篇)](htt 阅读全文
posted @ 2022-04-18 16:18 Flink菜鸟 阅读(1253) 评论(0) 推荐(0) 编辑
Flink 是否同时支持事件时间和处理时间
摘要:Flink 是否同时支持事件时间和处理时间 问题 Flink 程序是否同时支持 “事件时间窗口” 和 “处理时间窗口” ? 上周看到这个问题,当时的第一反应这人怕不是个 ** 哦! 后来越想越觉得有意思,用 Flink 这么久,任务要么是事件时间,要么处理时间,从来没遇到(想)过两种时间同时使用的情 阅读全文
posted @ 2022-03-02 17:31 Flink菜鸟 阅读(437) 评论(0) 推荐(0) 编辑
Flink 编译 1.14 版本的 cdc connector
摘要:Flink 编译 1.14 版本的 cdc connector Flink CDC Connectors 是一组用于 Apache Flink 的源连接器,使用变更数据捕获 (CDC) 从不同的数据库中获取变更。 Flink CDC 连接器集成了 Debezium 作为引擎来捕获数据变化。 所以它可 阅读全文
posted @ 2022-03-01 17:37 Flink菜鸟 阅读(8297) 评论(0) 推荐(0) 编辑
Flink SQL 同时 Join 多个 Mysql 表
摘要:flink sql lookup 多个 mysql 表 阅读全文
posted @ 2022-02-16 15:03 Flink菜鸟 阅读(3353) 评论(0) 推荐(1) 编辑
Flink 实时计算留存率
摘要:flink 实时计算留存率,flink stream api,窗口,水印 阅读全文
posted @ 2022-02-15 15:57 Flink菜鸟 阅读(1696) 评论(2) 推荐(1) 编辑
Flink sql kafka source 自定义并行度
摘要:本文参考康琪大佬的博客:使Flink SQL Kafka Source支持独立设置并行度 一直觉得 Flink Sql 需要指定算子并行度的功能,哪怕是基于 SQL 解析出来的算子不能添加并行度,source、sink、join 的算子也应该有修改并行度的功能。 恰好看到大佬的博客,Kafka 是最 阅读全文
posted @ 2022-01-08 15:44 Flink菜鸟 阅读(5268) 评论(0) 推荐(0) 编辑
Flink 读写 iceberg
摘要:flink 读写 iceberg,upsert 阅读全文
posted @ 2022-01-05 10:31 Flink菜鸟 阅读(5127) 评论(0) 推荐(0) 编辑

1 2 3 4 5 ··· 7 下一页