大数据数仓体系中如何玩转各种开源工具或技术

在从离线到实时化发展的过程中,大数据领域出现了很多优秀的系统以应对各种不同的分析和查询场景。

1.比如我们可以将实时的数据归档到像Hive这样的离线数仓里进行数据的离线处理后再将聚合后的小规模数据导出到mysql进行后续的报表查询或者数据访问;

2.也有将数据经过flink流计算引擎进行前置的实时处理计算后将结果汇总到HBASE/casandra这样的KV系统进行高并发的点查;

3.或者是实时数据直接写入clickhouse/druid这样的mpp系统里进行快速的交互式查询;

4.还有通过presto进行多个数据源的联邦查询

总之为了实现数据的摄取、处理、分析链路的实时化,需要搭建和运维多套系统或者服务,最终造成了架构复杂、数据存储割裂、数据不一致、开发成本高等诸多的问题。

716391fa7a1449409e37a4b45afc32a8

posted @ 2022-12-07 15:14  我爱编程到完  阅读(77)  评论(0编辑  收藏  举报