实时数仓原来如此:Kafka+Flink+Hudi

原来使用kafka消费者直接进行mysql数据同步,现在发现当时只考虑了数据的同步,对于后续数据的存储和使用没有考虑全面。面对大量流式数据,面向的是应用,数据同步之后,数据如何存储,如何计算是更大的问题,不只是数据本身。但是当时同步数据确实遇到了事务问题,通过加锁实现了简单的事务。Hudi本身支持ACID,看来自己又造轮子了!也深感大数据底座的重要性!

入湖/仓:Mysql+Kafka生产者+Flink+Kafka生产者+Flink SQL+Hudi(保证事物一致性)

ETL:Hudi/hive数据处理后放到Mysql,方便查询分析

不知道理解的是否有偏差,欢迎来拍砖。

posted @   我爱编程到完  阅读(583)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
点击右上角即可分享
微信分享提示