软考论文论湖仓一体架构及其应用

一、论文论据

数据仓库是从各种外部数据源、各种内部应用程序中定期提取数据的大型存储库。数据湖是一个以原始格式存储数据的平台,不需要定义数据按原样存储数据,而无需事先对数据进行结构化处理或者定义数据模式,数据湖仓虽然适合数据的存储,但由于不支持事务、缺乏一致性/隔离性、不保证执行数据质量等。因此数据湖不适合承载数据读写访问,批处理、流处理等业务。又由于数据湖缺乏结构性,容易编程数据沼泽。

湖仓一体(Lakehouse)结合了数据湖和数据仓库的优势,它构建在数据湖低成本的数据存储架构上,又继承了数据湖仓的数据处理和管理能力。

可以选择以下四种数据湖仓一体的特征,进行详细的特点阐述:

湖仓一体的特征:

1、事务支持:对事务的ACID支持,确保数据并发访问的一致性,正确性。可以在不破坏数据完整性的前提下,支持并发的读写事务。

2、数据的模型化和数据治理:支持各类数据模型的实现和转变,支持DW模式架构。

3、报表以及分析应用的支持,Lakehouse所保存的数据经过了清理和整合的过程,可以用于加速分析。相比于数据仓库,Lakehouse保存的数据更多,数据时效性更高,可以显著提升报表质量。

4、数据类型扩展:相比于数据仓库仅支持结构化数据,Lakehouse结构化可以支持结构化和非结构化数据,包括图像、视频、音频、文本。

5、存储和计算分离,降低存储成本:使用低成本硬件与集群技术架构数据湖。提供廉价的分离式存储,湖仓一体延续了数据湖的优势,采取了存算分离的架构,支持更大的并发量和数据规模。

6、开发性:数据湖仓采取了开源组件,且采用了Parquet/ORC等开放兼容的底层存储格式,因此,不同存储引擎、语言都可以操作数据湖仓。

7、减少数据的冗余:如果同时维护一个数据湖和多个数据仓库,往往会造成巨大的数据冗余,而使用Lakehouse,可以减少数据的重复性。

8、避免数据沼泽:人们倾向于数据湖中丢数据,而不考虑治理,长此以往数据湖会变成为数据沼泽,引入数据湖仓可以治理海量数据,有效提升分析数据的时效性。

posted @   tuqunfu  阅读(87)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示