实时数仓原来如此:Kafka+Flink+Hudi
原来使用kafka消费者直接进行mysql数据同步,现在发现当时只考虑了数据的同步,对于后续数据的存储和使用没有考虑全面。面对大量流式数据,面向的是应用,数据同步之后,数据如何存储,如何计算是更大的问题,不只是数据本身。但是当时同步数据确实遇到了事务问题,通过加锁实现了简单的事务。Hudi本身支持ACID,看来自己又造轮子了!也深感大数据底座的重要性!
入湖/仓:Mysql+Kafka生产者+Flink+Kafka生产者+Flink SQL+Hudi(保证事物一致性)
ETL:Hudi/hive数据处理后放到Mysql,方便查询分析
不知道理解的是否有偏差,欢迎来拍砖。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!