揭开数据湖建筑的神秘面纱
据Gartner称 , 到2021年 , 80%的成功CDO将创造价值或创造收入作为其第一优先事项。
为了在组织的数据环境中创造最大价值,传统的决策支持系统架构已不再适用。 需要开发新的架构模式以利用数据的力量。 为了充分发挥使用大数据的价值,组织需要拥有灵活的数据架构,并能够从数据生态系统中获取最大价值。
Data Lake概念已经出现了一段时间。 但是,我看到组织很难理解这个概念,因为很多组织仍然在旧的企业数据仓库范例中加入。
在本文中,我将深入探讨Data Lake Architecture模式的概念构造和布局架构模式。
让我们从已知的第一个开始。
传统数据仓库(DWH)架构:
传统的企业DWH架构模式已经使用了很多年。 有数据源,数据被提取,转换和加载(ETL),在途中,我们进行某种结构创建,清理等。我们在EDW(维度模型或3NF模型)中预定义数据模型,然后创建部门数据用于报告的marts,用于切片和切块的OLAP多维数据集以及自助BI。
这种模式无处不在,现在已经很好地服务了我们。
但是,这种模式存在一些固有的挑战,无法在大数据时代扩展。 让我们看看其中几个:
首先,我们工作的理念是我们需要首先理解数据。 什么是源系统结构,它拥有什么样的数据,基数是什么,应该如何根据业务需求对其进行建模,数据是否有任何异常等等。 这是一项乏味而复杂的工作。 我曾经在需求分析和数据分析阶段花费至少2-3个月。 EDW项目可持续几个月到几年。 这都是基于企业了解需求的假设。
我们还必须对要存储的数据和要丢弃的数据做出选择和妥协。 在决定引入什么,如何引入,如何存储,如何转换等方面花费了大量时间。花费更少的时间来实际执行数据发现,发现模式或创建新的业务增值假设。
数据定义:
现在让我们简要讨论数据定义是如何变化的。 现在众所周知,4 V的大数据。 体积,速度,多样性和准确性。 让我在这些事情上加上一些背景:
自iphone革命以来,数据量激增。 每年有60亿部智能手机和近1PB的数据。
数据不仅仅是静止的。 有流数据,IoT启用连接设备。 来自多个方面的大量数据。
它也涉及各种数据。 视频输入,照片都是现在需要分析和利用的数据点。
随着数据的爆炸式增长也带来了数据质量的挑战。 在大数据世界中哪一个应该值得信任,哪个不应该是一个更大的挑战。
简而言之,可分析数据的定义已经发生了变化。 现在不只是结构公司数据,而是各种数据。 挑战在于将它们混合起来并从中理解。
摩尔定律:
自2000年以来,处理能力,存储和相应的成本结构发生了巨大变化。 它一直受到我们称之为摩尔定律的影响 。 关键点:
自2000年以来,处理能力增加了大约10,000倍。这意味着有效分析更多数据的能力有所提高。
存储成本也相当可观。 自2000年以来,存储成本已经下降了1000多倍。
数据湖类比:
让我用类比来解释Data Lake的概念。
参观一个大湖总是一种非常愉快的感觉。 湖中的水是最纯净的形式,不同的人在湖上进行不同的活动。 有些人正在钓鱼,有些人正在乘船游览,这个湖还为居住在安大略省的人提供饮用水。 简而言之,同一个湖泊用于多种用途。
随着数据范例的变化,出现了一种新的架构模式。 它被称为数据湖建筑。 就像湖中的水一样,数据湖中的数据是最纯粹的形式。 就像湖泊一样,它需要不同的人,想钓鱼的人或想乘船的人或想要从中获取饮用水的人,数据湖建筑迎合多种人物角色。 它为数据科学家提供了探索数据和创建假设的途径。 它为业务用户提供了一种探索数据的途径。 它为数据分析师提供了分析数据和查找模式的途径。 它为报告分析师创建报告和向利益相关者呈现提供了一条途径。
我将数据湖与数据仓库或市场进行比较的方式如下:
Data Lake以最纯粹的形式存储数据,迎合多个利益相关者,还可以用于以最终用户可以使用的形式打包数据。 另一方面,数据仓库已经过蒸馏和包装以达到特定目的。
概念数据湖建筑:
在解释了这个概念后,现在让我带您了解数据湖的概念架构。 以下是数据湖架构中的关键组件。 我们拥有可以结构化和非结构化的数据源。 它们都集成到原始数据存储中,以最纯粹的形式使用数据,即不进行转换。 它是一种廉价的持久存储,可以大规模存储数据。 然后我们有了分析沙箱,用于理解数据,创建原型,执行数据科学和探索数据以构建新的假设和用例。
然后我们有批处理引擎,它将原始数据处理成可由用户使用的东西,即可用于向最终使用报告的结构。 我们将其称为已处理的数据存储。 有一个实时处理引擎可以获取流数据并对其进行处理。 此体系结构中的所有数据都已编目和编制。
让我引导您完成此体系结构中的每个组件组。
LAMBDA:
第一个组件组适合处理数据。 它遵循称为Lambda Architecture的架构模式。 基本上,Lambda架构需要两个处理路径。 批处理层和速度层。 批处理层以最可能的形式存储数据,即原始数据存储和速度层接近实时处理数据。 速度层还将数据存储到原始数据存储中,并且可以在加载到处理的数据存储之前存储瞬态数据。
分析沙箱:
分析沙箱是数据湖架构的关键组成部分之一。 这些是数据科学家的探索领域,他们可以开发和测试新的假设,混搭和探索数据以形成新的用例,创建快速原型来验证这些用例,并实现可以采取哪些措施来提取价值。这生意。
它是数据科学家可以发现数据,提取价值并帮助改变业务的地方。
编目和治理:
数据编目是传统商业智能中不断忽视的重要原则。 在大数据领域,编目是人们应该关注的最重要的方面。 让我首先给出一个类比来解释什么是编目。 我和我的客户一起做这个练习,以获得编目的重点。
当我要求我的客户在没有提供目录信息的情况下猜测绘画的潜在成本时,答案范围从100美元到100,000美元不等。 当我提供目录信息时,答案更接近实际。 顺便说一下,这幅画被称为Pablo Picasso于1903年创作的“ 老吉他手 ”。它的估计成本超过1亿美元。
数据目录非常相似。 不同的数据块具有不同的值,并且该值根据数据的谱系,数据质量,创建源等而变化。数据需要被编目,以便数据分析员或数据科学家可以自己决定哪个数据指向用于特定分析。
目录图:
目录映射提供了可以编目的潜在元数据。 编目是捕获有价值的元数据的过程,以便可以用它来确定数据的特征并做出是否使用它的决定。 基本上有两种类型的元数据:业务和技术。 业务元数据更多地与定义,逻辑数据模型,逻辑实体等有关,而技术元数据是捕获与数据结构的物理实现相关的元数据。 它包括数据库,质量得分,列,架构等。
根据目录信息,分析师可以选择在正确的上下文中使用特定的数据点。 让我给你举个例子。 想象一下,数据科学家想要对库存周转率及其在ERP中定义的方式进行探索性分析,并且库存系统是不同的。 如果对该术语进行了编目,则数据科学家可以根据上下文决定使用ERP中的列或库存系统。
Data Lake和EDW的主要区别:
这是一个明确的幻灯片,试图解释差异。
首先,哲学是不同的。 在数据湖架构中,我们首先在raw中加载数据并决定我们应该如何处理它。 在传统的DWH架构中,我们必须首先理解数据,对其进行建模然后加载。
数据湖中的数据以原始形式存储,其中DWH中的数据以结构化形式存储。 记住湖和蒸馏水。
Data lake支持各种用户。
分析项目实际上是敏捷项目。 这些项目的本质是,一旦你看到输出,你会想得更多,想要更多。 数据湖本质上是敏捷的。 由于它们将所有数据与其目录存储在一起,因此可确保如果出现新要求,则可以非常轻松地进行调整。
Azure上的Data Lake架构:
云平台最适合实施Data Lake Architecture。 他们拥有大量可组合服务,可以将它们编织在一起以实现所需的可扩展性。 Microsoft的Cortana Intelligence Suite提供了一个或多个组件,可以映射到Data Lake Architecture。