随笔分类 -  FLINK

Flink Sql Lookup Join Hbase 表非主键
摘要:flink 关联 hbase 表非主键 阅读全文
posted @ 2021-11-16 15:54 Flink菜鸟 阅读(2679) 评论(2) 推荐(0) 编辑
Flink 自定义 Http Table Source
摘要:自定义Flink http table source 阅读全文
posted @ 2021-10-11 11:14 Flink菜鸟 阅读(2583) 评论(2) 推荐(1) 编辑
Flink 关联 Hbase 非主键
摘要:Hbase 作为 Hadoop 全家桶中,非常重要的存储组件,适用于海量数据的随机查询,使用是非常广泛的。 实时数仓项目使用 Kafka 作为数仓的基础表,我们也会把 Kafka 的数据往 Hbase 写一份,方便其他场景使用,比如:做维表 Flink Hbase 表默认使用 TableScan 一 阅读全文
posted @ 2021-09-23 14:10 Flink菜鸟 阅读(1202) 评论(0) 推荐(0) 编辑
Flink Cumulate Window
摘要:flink CUMULATE 窗口 阅读全文
posted @ 2021-09-09 09:31 Flink菜鸟 阅读(3657) 评论(0) 推荐(0) 编辑
Flink sql 写 Hbase 忽略空列
摘要:数仓场景下,经常有两个表 Join 后往一个宽表写数据。比如:埋点数据中只包含 user_id,但是下游计算的需要使用用户的其他属性,就需要将埋点数据和用户数据做关联。 实时场景,需要做流表 Join,用埋点数据的 user_id 去全量用户表中取用户属性。 如果两部分数据产生的顺序不确定,可能先生 阅读全文
posted @ 2021-09-07 17:34 Flink菜鸟 阅读(1080) 评论(0) 推荐(0) 编辑
如何用flink sql写,3h,7h,1d内pv,uv
摘要:一个同学在群里问的这个问题,刚好好久没写过window 的sql了,玩一玩 手上没有环境,一起从简了 使用 datagen 生成数据,id 随机生成,最小值 输出直接到 console 窗口 -- flink window tvf calc pv&uv create table if not exi 阅读全文
posted @ 2021-08-24 10:52 Flink菜鸟 阅读(1522) 评论(0) 推荐(0) 编辑
flink sql join hbase demo
摘要:lookup join mysql demo: flink lookup join mysql demo ## join rowkey -- Lookup Source -- kafka source CREATE TABLE user_log ( user_id STRING ,item_id S 阅读全文
posted @ 2021-08-20 10:14 Flink菜鸟 阅读(1802) 评论(2) 推荐(0) 编辑
Flink SQL 写 hudi
摘要:# Flink SQL 写 hudi 最近在做一个数据湖项目,基于 Hudi 的湖仓一体项目,计算引擎是 Flink + Spark 之前稍稍研究了一下数据湖的三个主要技术组件 IceBerg,以为可能会用,在网上看资料的时候,同样也发现,IceBerg 对 Flink 比较亲和,Hudi 对 Sp 阅读全文
posted @ 2021-07-19 08:17 Flink菜鸟 阅读(3424) 评论(0) 推荐(0) 编辑
flink lookup join mysql demo
摘要:Flink 1.12 的时候尝试使用 JDBC SQL Connector kafka 流关联 mysql 表,使用 lookup cache 缓存 mysql 数据,测试在关联性能和更新时效的平衡。不过遭遇了失败,尝试各种 join 也无法实现,mysql source 使用 InputForma 阅读全文
posted @ 2021-06-08 15:03 Flink菜鸟 阅读(5654) 评论(0) 推荐(0) 编辑
Flink SQL 自定义 UDF 解析复杂 JSON
摘要:2021-06-07 修改 白干了,flink 1.13 json format 可以直接解析复杂的sql,以如下格式 CREATE TABLE user_log ( user_id STRING ,item_id STRING ,category_id STRING ,sub_json ROW(s 阅读全文
posted @ 2021-05-31 15:57 Flink菜鸟 阅读(8039) 评论(8) 推荐(0) 编辑
flink Stream Api cdc demo
摘要:最近在研究 flink-cdc ,因为想到table api 的 cdc 都是针对单表,如果在同一个数据库上,有很多表需要实时采集(比如: 100 张表),会不会对 mysql 造成压力,如果 mysql 数据量又比较大,是不是会对 mysql 所在服务器造成磁盘和网络的压力。 对 binlog 有 阅读全文
posted @ 2021-04-25 22:33 Flink菜鸟 阅读(4119) 评论(0) 推荐(2) 编辑
flink sql 写 kudu
摘要:Kudu 是现在比较火的一款存储引擎,集HDFS的顺序读和HBase的随机读于一身,非常适合物流网场景,刚刚到达的数据就马上要被终端用户使用访问到,未来还要做大规模的数据分析。 kudu 适合的场景(以下内容来自网络): 1. 适用于那些既有随机访问,也有批量数据扫描的复合场景 2. CPU密集型的 阅读全文
posted @ 2021-04-16 17:41 Flink菜鸟 阅读(3746) 评论(1) 推荐(0) 编辑
【源码】Flink StreamFileSink 输出文件名怎么命名的
摘要:本文基于 Flink 1.11.3 最近 flink 版本从 1.8 升级到 1.11,在输出数据到 hdfs 的时候,发现输出文件都是这样命名的: .part-0-0.inprogress.aa4a310c-7b48-4dee-b153-2a4f21ef10b3 .part-0-0.inprogr 阅读全文
posted @ 2021-04-13 15:01 Flink菜鸟 阅读(1683) 评论(0) 推荐(0) 编辑
【源码】Flink sql 流式去重源码解析
摘要:本文基于 flink 1.12.0 之前尝试了一下 flink sql 的 去重和Top n 功能,只是简单的看了下官网,然后用 sql 实现了功能,但是还有些疑问没有解决。比如:不使用 mini-batch 模式,去重的结果很单一,降序就只输出第一条数据(升序就一直输出最后一条) 为了解决这些疑问 阅读全文
posted @ 2021-03-17 21:12 Flink菜鸟 阅读(1726) 评论(0) 推荐(0) 编辑
Flink sql 流式去重
摘要:在大数据的处理过程中会出现很多汇总类指标的计算,比如计算当日的每个类目下的用户的订单信息,就需要按类目分组,对用户做去重。Flink sql 提供了 “去重” 功能,可以在流模式的任务中做去重操作。 官网文档 去重 官网链接: [去重](https://ci.apache.org/projects/ 阅读全文
posted @ 2021-03-09 17:08 Flink菜鸟 阅读(3499) 评论(0) 推荐(0) 编辑
Flink Sql jdbc connector
摘要:本文参考官网 Table & SQL Connectors JDBC SQL Connector https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/jdbc.html#lookup-ca 阅读全文
posted @ 2021-02-20 09:41 Flink菜鸟 阅读(4332) 评论(0) 推荐(0) 编辑
flink-1.12.0 upsert-kafka connector demo
摘要:参考官网: https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/connectors/kafka.htmlhttps://ci.apache.org/projects/flink/flink-docs-r 阅读全文
posted @ 2021-01-14 17:41 Flink菜鸟 阅读(5090) 评论(0) 推荐(0) 编辑
编译 flink 1.12.0
摘要:参考文档: 编译Flink 1.9.0 https://www.cnblogs.com/Springmoon-venn/p/11512136.html 编译环境: ubuntu 18.05Java : 1.8.0_271 官网下载源码包:https://mirrors.tuna.tsinghua.e 阅读全文
posted @ 2020-12-22 19:50 Flink菜鸟 阅读(1187) 评论(0) 推荐(0) 编辑
Flink 1.12.0 sql 任务指定 job name
摘要:参考前文:解决 Flink 1.11.0 sql 不能指定 jobName 的问题 从 FLink 1.11 改版 sql 的执行流程后,就不能和 Stream Api 一样使用 env.execute("JobName") 来指定任务名 看了源码后发现,在 sql 任务中,直接使用了 "inser 阅读全文
posted @ 2020-12-19 11:53 Flink菜鸟 阅读(6121) 评论(1) 推荐(0) 编辑
【翻译】Apache Flink 1.12.0 Release Announcement
摘要:本文来自官网: https://flink.apache.org/news/2020/12/10/release-1.12.0.html 2020年12月10日Marta Paes(@morsapaes)和Aljoscha Krettek(@aljoscha) Apache Flink社区很高兴地宣 阅读全文
posted @ 2020-12-17 10:25 Flink菜鸟 阅读(1023) 评论(0) 推荐(0) 编辑