如何设计成功的数据湖
执行摘要
业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。 Data Lake是下一代数据存储和管理解决方案,旨在满足日益精明的用户不断变化的需求。
本白皮书探讨了企业数据仓库和其他现有数据管理和分析解决方案的现有挑战。 它描述了Data Lake体系结构的必要功能以及利用数据和分析即服务(DAaaS)模型所需的功能。 它还介绍了Data Lake成功实施的特点以及设计Data Lake的关键考虑因素。
当前的企业数据仓库挑战
业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。 随着用户需求的发展以及数据存储技术的进步,当前企业数据仓库解决方案的不足之处变得更加明显。 当今数据仓库面临的以下挑战可能会阻碍使用并阻止用户最大化其分析功能:
- 及时性 。 向企业数据仓库引入新内容可能是一个耗时且繁琐的过程。 当用户需要立即访问数据时,即使是短暂的处理延迟也会令人沮丧,并导致用户绕过正确的流程,转而自己快速获取数据。 用户还可能浪费宝贵的时间和资源从操作系统中提取数据,自行存储和管理数据,然后对其进行分析。
- 灵活性 。 用户不仅无需随时访问他们可能需要的任何数据,而且还能够使用他们选择的工具来分析数据并获得关键见解。 此外,当前的数据仓库解决方案通常存储一种类型的数据,而今天的用户需要能够分析和聚合多种不同格式的数据。
- 品质 。 用户可能怀疑地查看当前数据仓库。 如果数据源自何处以及如何处理,则用户可能不信任该数据。 此外,如果用户担心数据仓库中的数据丢失或不准确,他们可能会绕过仓库,转而直接从其他内部或外部源获取数据,这可能会导致同一数据的多个冲突实例。
- 可寻找性 。 对于许多当前的数据仓库解决方案,用户无法在需要时快速,轻松地搜索和查找所需的数据。 无法查找数据还限制了用户利用和构建现有数据分析的能力。
高级分析用户需要基于IT“推送”模型的数据存储解决方案(不受特定分析项目的驱动)。 与现有的特定于一个或一小部分用例的解决方案不同,所需要的是一种存储解决方案,可以在整个企业中实现多个不同的用例。
这种新的解决方案需要以自助服务的形式支持多个报告工具,以便在不进行大量建模的情况下快速提取新数据集,并在提供性能的同时扩展大型数据集。 它应该支持高级分析,如机器学习和文本分析,并允许用户迭代地清理和处理数据,并跟踪数据的谱系以确保合规性。 用户应该能够在一个安全的位置轻松搜索和探索来自多个源的结构化,非结构化,内部和外部数据。
符合所有这些标准的解决方案是数据湖。
数据湖蓝图
数据湖架构
Data Lake是一个以数据为中心的架构,具有能够以各种格式存储大量数据的存储库。 来自Web服务器日志,数据库,社交媒体和第三方数据的数据被提取到Data Lake中。 通过捕获元数据和沿袭并使其在数据目录(Datapedia)中可用来进行管理。 还适用安全策略,包括权利。
数据可以通过批处理或流数据的实时处理流入Data Lake。 此外,数据本身不再受初始模式决策的约束,并且可以被企业更自由地利用。 超越此存储库的是一组功能,允许IT在供需模型中提供数据和分析即服务(DAaaS)。 IT扮演数据提供者(供应商)的角色,而业务用户(数据科学家,业务分析师)则是消费者。
DAaaS模型使用户能够自我提供数据和分析需求。 用户浏览湖泊的数据目录(数据仓库)以查找和选择可用数据,并填写一个隐含的“购物车”(实际上是分析沙箱),其中包含可供使用的数据。 一旦配置了访问权限,用户就可以使用他们选择的分析工具来开发模型并获得洞察力。 随后,用户可以发布分析模型或将精炼或转换的数据推送回Data Lake以与更大的社区共享。
虽然配置分析沙箱是主要用途,但Data Lake还有其他应用程序。 例如,Data Lake也可用于提取原始数据,策划数据和应用ETL。 然后可以将此数据加载到企业数据仓库。 为了利用Data Lake提供的灵活性,组织需要根据其特定要求和域自定义和配置Data Lake。
数据湖实施成功的特征
Data Lake使用户能够分析存储在湖中的全部数据和数量。 这需要特征和功能来保护和策划数据,然后对其进行分析,可视化和报告。 成功的Data Lake的特点包括:
- 使用多种工具和产品 。 从Data Lake中提取最大价值需要任何单一开源平台或商业产品供应商目前无法提供的定制管理和集成。成功的Data Lake所需的跨引擎集成需要多个技术堆栈,这些堆栈本身支持结构化,半结构化和非结构化数据类型。
- 域规范 。 Data Lake必须针对特定行业量身定制。 为生物医学研究定制的数据湖与为金融服务量身定制的数据湖有很大不同。Data Lake需要业务感知数据定位功能,使业务用户能够查找,探索,理解和信任数据。 此搜索功能需要提供直观的导航方式,包括关键字,分面和图形搜索。 在这种情况下,这种能力需要复杂的业务本体,其中业务术语可以映射到物理数据。 使用的工具应该能够独立于IT,以便业务用户可以在需要时获取所需的数据,并在必要时进行分析,无需IT干预。
- 自动化元数据管理 。 Data Lake概念依赖于为湖中的每个内容捕获一组强大的属性。 数据沿袭,数据质量和使用历史等属性对可用性至关重要。 维护此元数据需要高度自动化的元数据提取,捕获和跟踪功能。 如果没有高度自动化和强制性的元数据管理,Data Lake将迅速成为数据沼泽。
- 可配置的摄取工作流程 。 在蓬勃发展的数据湖中,业务用户将不断发现新的外部信息来源。 这些新的资源需要迅速加入,以避免挫败感,并立即实现机会。 配置驱动的摄取工作流机制可以提供高水平的重用,从而可以从新来源获取简单,安全和可跟踪的内容。
- 与现有环境集成 。 Data Lake需要融入并支持现有的企业数据管理范例,工具和方法。 它需要一个主管,在需要时集成和管理现有的数据管理工具,如数据分析,数据管理和清理以及数据屏蔽技术。
牢记所有这些因素对于成功构建Data Lake至关重要。
设计Data Lake
设计成功的Data Lake是一项艰巨的任务,需要全面了解技术要求和业务敏锐度,以完全定制和集成架构,以满足组织的特定需求。
Knowledgent的大数据科学家和工程师提供必要的专业知识,将Data Lake发展为成功的数据和分析即服务解决方案,包括:
- DAaaS战略服务定义 。 我们的信息专家利用定义DAaaS平台提供的服务目录,包括数据入门,数据清理,数据转换,数据集,分析工具库等。
- DAaaS架构 。 我们帮助客户实现目标状态DAaaS架构,包括构建环境,选择组件,定义工程流程以及设计用户界面。
- DAaaS PoC 。 我们设计并执行概念验证(PoC)以演示DAaaS方法的可行性。 使用前沿基础和其他选定工具构建/演示DAaaS平台的主要功能。
- DAaaS操作模型设计和部署 。 我们定制我们的DAaaS运营模式,以满足个人客户的流程,组织结构,规则和治理。 这包括建立DAaaS退款模型,消费跟踪和报告机制。
- DAaaS平台功能扩建 。 我们提供专业知识,可以迭代构建所有平台功能,包括设计,开发和集成,测试,数据加载,元数据和目录填充以及部署。
结论
Data Lake可以成为高级分析专家和业务用户的有效数据管理解决方案。 Data Lake允许用户在何时以及如何需要时分析各种各样的卷。 遵循数据和分析即服务(DAaaS)模型为用户提供按需自助服务数据。
然而,为了取得成功,Data Lake需要利用众多产品,同时为行业量身定制,并为用户提供广泛,可扩展的定制。 Knowledgent的信息专家提供技术专业知识和商业头脑的融合,帮助组织设计和实施他们完美的Data Lake。