大数据相关问题

数据湖与数据仓库的区别

根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求和使用案例。

   数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

   数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

通过上表,我们不难发现“数据湖”有着数据仓库无法比拟的优势:

   首先,在数据处理和存储能力方面,数据湖可以处理结构化、半结构化、非结构化的所有数据结构的数据,而数据仓库只能处理结构化数据。

   数据仓库在处理数据之前要先进行数据梳理、定义数据结构、进行数据清洗才进行入库操作,而数据湖是不管“三七二十一”连上数据源就能将原始数据“一锅端过来”,这就为后续数据湖的机器学习、数据挖掘带来了无限可能!

   其次,在数据质量和安全方面,数据仓库作用范围有限,它只能用于收集、处理和分析特定业务问题所必需的数据,而数据湖却能对任何数据,甚至无法监管的原始数据实施数据治理,以提升数据质量和安全性。

   最后,在灵活性上数据湖具备天然优势。传统的数仓,因为模型范式的要求,业务不能随便的变迁,这涉及到底层数据的各种变化,这导致了传统数仓无法支持业务的变化。对于数据湖来说,即使像互联网行业不断有新的应用,业务不断发生变化,数据模型也不断的变化,但数据依然可以非常容易的进入数据湖,对于数据的采集、清洗、规范化的处理,完全可以延迟到业务需求的时候再来处理。这跟早期的数仓思维就很不一样,数据湖相对于企业来说,灵活性比较强,能更快速的适应前端应用的变化。
posted @ 2022-08-11 09:58  半个程序猿Cohen_Lee  阅读(20)  评论(0编辑  收藏  举报