湖仓一体

一、定义

1、数据湖定义(Wikipedia):

数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。储存数据湖的方式包括 Apache Hadoop分布式文件系统, Azure 数据湖或亚马逊云 Lake Formation云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案

2、数据仓库定义(Wikipedia):

在计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,用于为整个企业的员工创建分析报告。比较学术的解释是,数据仓库由数据仓库之父W.H.Inmon于1990年提出,主要功能乃是将组织透过信息系统之在线交易处理(OLTP)经年累月所累积的大量数据,透过数据仓库理论所特有的数据存储架构,作一有系统的分析整理,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管信息系统(EIS)之创建,帮助决策者能快速有效的自大量数据中,分析出有价值的信息,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

 

二、数据仓库和数据湖对比

数据仓库   数据湖
数据体系严格,提前建模
数据体系松散,事后建模
灵活性较低
灵活性较高
数据治理容易
数据治理困难
数据种类单一(结构化、半结构化)
数据种类丰富(结构化、半结构化、非结构化)
面向成熟数据的企业级分析与处理
面向异构数据的科学探查与价值挖掘
向特定引擎开放,易获得高度优化
向所有引擎开放,各引擎有限优化

 

 

 

 

参考链接

1、如何理解湖仓一体

https://cloud.tencent.com/developer/article/2066853

2、数据湖 VS 数据仓库的根本区别

https://mp.weixin.qq.com/s/HOCb_-8m_fpvKyiLWXE5kA

3、深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

https://cloud.tencent.com/developer/article/1936522?from_column=20421&from=20421

4、详解数据湖:概念、特征、架构与案例

https://mp.weixin.qq.com/s/0Iv2fUygX6b4uRqW_LeTrg

5、B站基于Iceberg的湖仓一体架构实践

https://mp.weixin.qq.com/s?__biz=Mzg3Njc0NTgwMg==&mid=2247484582&idx=1&sn=45d662b2cfb11dff8b1ea19be21ab963&chksm=cf2cc183f85b4895fd4bf429ea2d1d53d5090a3174b6ea93cda4af83e6ee14164af4c6ed8304&scene=178&cur_album_id=2329861166598127619#rd

 

posted @ 2023-10-07 10:13  黑水滴  阅读(12)  评论(0编辑  收藏  举报