实时数仓原来如此:Kafka+Flink+Hudi

原来使用kafka消费者直接进行mysql数据同步,现在发现当时只考虑了数据的同步,对于后续数据的存储和使用没有考虑全面。面对大量流式数据,面向的是应用,数据同步之后,数据如何存储,如何计算是更大的问题,不只是数据本身。但是当时同步数据确实遇到了事务问题,通过加锁实现了简单的事务。Hudi本身支持ACID,看来自己又造轮子了!也深感大数据底座的重要性!

入湖/仓:Mysql+Kafka生产者+Flink+Kafka生产者+Flink SQL+Hudi(保证事物一致性)

ETL:Hudi/hive数据处理后放到Mysql,方便查询分析

不知道理解的是否有偏差,欢迎来拍砖。

posted @ 2022-12-07 14:58  我爱编程到完  阅读(562)  评论(0编辑  收藏  举报