大数据数仓体系中如何玩转各种开源工具或技术

在从离线到实时化发展的过程中，大数据领域出现了很多优秀的系统以应对各种不同的分析和查询场景。

1.比如我们可以将实时的数据归档到像Hive这样的离线数仓里进行数据的离线处理后再将聚合后的小规模数据导出到mysql进行后续的报表查询或者数据访问;

2.也有将数据经过flink流计算引擎进行前置的实时处理计算后将结果汇总到HBASE/casandra这样的KV系统进行高并发的点查;

3.或者是实时数据直接写入clickhouse/druid这样的mpp系统里进行快速的交互式查询;

4.还有通过presto进行多个数据源的联邦查询

总之为了实现数据的摄取、处理、分析链路的实时化，需要搭建和运维多套系统或者服务，最终造成了架构复杂、数据存储割裂、数据不一致、开发成本高等诸多的问题。

716391fa7a1449409e37a4b45afc32a8

posted @ 2022-12-07 15:14 我爱编程到完阅读(83) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 实时数仓原来如此：Kafka+Flink+Hudi

· 大数据-数据仓库-实时数仓架构分析

· 数据中台开源解决方案（一）

· hadoop00_大数据技术介绍

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 因为Apifox不支持离线，我果断选择了Apipost！
· 通过 API 将Deepseek响应流式内容输出到前端

昵称：我爱编程到完
园龄： 8年7个月
粉丝： 2
关注： 8

2025年3月

日

一

二

三

四

五

六