flink实时生产维度表

十一之前写了个实时的维表，flink-sql实现的，技术上并不难，之前没写过，还是踩了一些坑的，特此总结下

一、需求背景

1、离线有个用户的维度表，需要搬到流上面，大概是1000万的存量数据，上游来自8个mysql表

2、可用的组件有kafka，flink，hbase，redis

3、8个表每个变更都需要下发一条完整的记录到kafka

1、首先要想好写几个Hbase维表，业务上主键要想清楚，这是每次关联都需要的，比如，这个用户维度表主键是用户id，但是可能还会有身份证id啥的做关联，这就还需要身份证id的hbase表，还需要用户id和身份证id的关联表

2、每次收到消息需要往hbase写一份，同时需要下发一条消息

3、对于聚合函数、row_number函数需要考虑是否需要像离线那样全局维护状态

1、实时的维度表比离线复杂多了，每次变更下发就意味着要维护8段逻辑

2、要想保证严格准确，比如min这种处理，就需要历史所有的数据流上处理一遍

3、写下来感觉还不如直接用mysql来的实在，1000万的数据mysql也吃的消，逻辑上也简单很多

posted @ 2021-10-07 22:57 活不明白阅读(98) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件

· 读懂简单的hive执行计划-explain计划

· FlinkSQL实践 -- 时态表/版本表

· Flink-core小总结

昵称：活不明白
园龄： 7年6个月
粉丝： 1
关注： 10

2025年3月

日

一

二

三

四

五

六