Flink菜鸟 - 博客园

2021年8月24日

摘要：一个同学在群里问的这个问题，刚好好久没写过window 的sql了，玩一玩手上没有环境，一起从简了使用 datagen 生成数据，id 随机生成，最小值输出直接到 console 窗口 -- flink window tvf calc pv&uv create table if not exi 阅读全文

posted @ 2021-08-24 10:52 Flink菜鸟阅读(1617) 评论(0) 推荐(0)

2021年8月20日

flink sql join hbase demo

摘要： lookup join mysql demo： flink lookup join mysql demo ## join rowkey -- Lookup Source -- kafka source CREATE TABLE user_log ( user_id STRING ,item_id S 阅读全文

posted @ 2021-08-20 10:14 Flink菜鸟阅读(1941) 评论(2) 推荐(0)

2021年7月19日

Flink SQL 写 hudi

摘要： # Flink SQL 写 hudi 最近在做一个数据湖项目，基于 Hudi 的湖仓一体项目，计算引擎是 Flink + Spark 之前稍稍研究了一下数据湖的三个主要技术组件 IceBerg，以为可能会用，在网上看资料的时候，同样也发现，IceBerg 对 Flink 比较亲和，Hudi 对 Sp 阅读全文

posted @ 2021-07-19 08:17 Flink菜鸟阅读(3587) 评论(0) 推荐(0)

2021年6月8日

flink lookup join mysql demo

摘要： Flink 1.12 的时候尝试使用 JDBC SQL Connector kafka 流关联 mysql 表，使用 lookup cache 缓存 mysql 数据，测试在关联性能和更新时效的平衡。不过遭遇了失败，尝试各种 join 也无法实现，mysql source 使用 InputForma 阅读全文

posted @ 2021-06-08 15:03 Flink菜鸟阅读(6010) 评论(0) 推荐(0)

2021年5月31日

Flink SQL 自定义 UDF 解析复杂 JSON

摘要： 2021-06-07 修改白干了，flink 1.13 json format 可以直接解析复杂的sql，以如下格式 CREATE TABLE user_log ( user_id STRING ,item_id STRING ,category_id STRING ,sub_json ROW(s 阅读全文

posted @ 2021-05-31 15:57 Flink菜鸟阅读(8474) 评论(8) 推荐(0)

2021年4月25日

flink Stream Api cdc demo

摘要：最近在研究 flink-cdc ，因为想到table api 的 cdc 都是针对单表，如果在同一个数据库上，有很多表需要实时采集（比如： 100 张表），会不会对 mysql 造成压力，如果 mysql 数据量又比较大，是不是会对 mysql 所在服务器造成磁盘和网络的压力。对 binlog 有阅读全文

posted @ 2021-04-25 22:33 Flink菜鸟阅读(4419) 评论(0) 推荐(2)

2021年4月16日

flink sql 写 kudu

摘要： Kudu 是现在比较火的一款存储引擎，集HDFS的顺序读和HBase的随机读于一身，非常适合物流网场景，刚刚到达的数据就马上要被终端用户使用访问到,未来还要做大规模的数据分析。 kudu 适合的场景（以下内容来自网络）： 1. 适用于那些既有随机访问,也有批量数据扫描的复合场景 2. CPU密集型的阅读全文

posted @ 2021-04-16 17:41 Flink菜鸟阅读(3881) 评论(1) 推荐(0)

2021年4月13日

【源码】Top n 源码

摘要：本文基于 flink 1.12.0 top n 官网： https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#top-n ## sql flink top n sql 如下，to 阅读全文

posted @ 2021-04-13 15:11 Flink菜鸟阅读(961) 评论(0) 推荐(0)

【源码】Flink StreamFileSink 输出文件名怎么命名的

摘要：本文基于 Flink 1.11.3 最近 flink 版本从 1.8 升级到 1.11，在输出数据到 hdfs 的时候，发现输出文件都是这样命名的： .part-0-0.inprogress.aa4a310c-7b48-4dee-b153-2a4f21ef10b3 .part-0-0.inprogr 阅读全文

posted @ 2021-04-13 15:01 Flink菜鸟阅读(1809) 评论(0) 推荐(0)

2021年3月17日

【源码】Flink sql 流式去重源码解析

摘要：本文基于 flink 1.12.0 之前尝试了一下 flink sql 的去重和Top n 功能，只是简单的看了下官网，然后用 sql 实现了功能，但是还有些疑问没有解决。比如：不使用 mini-batch 模式，去重的结果很单一，降序就只输出第一条数据（升序就一直输出最后一条）为了解决这些疑问阅读全文

posted @ 2021-03-17 21:12 Flink菜鸟阅读(1849) 评论(0) 推荐(1)