数据血缘
在处理大数据管道时,数据血缘(Data Lineage)是一个重要的环节,用来追踪数据的来源、去向以及如何进行转换。下面介绍几个流行的处理数据血缘的开源组件:
1. **Apache Atlas**:Atlas是一个可扩展且,它可以为Hadoop生态系统提供一致性、标准化的元数据管理和血缘解决方案。
2. **Marquez**:Marquez是一个开源的元数据服务,适用于描述数据管道(ETLs)的血缘、元数据以及相关属性。
3. **Amundsen**:这是一个元数据驱动的数据发现和搜索平台,由Lyft开发并开源。一部分服务是用于收集、索引以及显示数据血缘。
4. **Apache NiFi**:NiFi是一个用于自动化和管理复杂系统之间数据流的工具。除了数据流功能之外,NiFi还提供视觉化的数据血缘追踪工具。
5. **Egeria**:Egeria是开放的元数据管理(ODPi)项目的一部分,提供了开放的元数据标准和实现,包括对数据血缘的支持。
6. **Apache Kylin**:Kylin是一款开源的数据仓库工具,用于提供SQL接口和多维分析(OLAP)能力,它将原始数据从Hadoop集群中提取出来并创建数据 Cube,这个过程即形成了数据血缘。
7. **Cloudera Navigator**:虽然不是开源工具,但是 Cloudera Navigator 是一种数据管理工具,可以进行数据发现、数据探索和数据血缘分析。它主要用于Cloudera分布式环境。
这些工具为团队提供了对数据管道进行管理与监控的能力,使得数据处理过程更可靠,更加透明,同时也降低了出错的风险。
Egeria 是一个开源项目,致力于提供企业级的元数据管理和数据血缘管理的平台和标准。这个项目是由开放元数据和连接性OMG(Open Metadata and Governance)社区驱动的,它涉及的范围包括数据湖、数据仓库、机器学习工具、数据科学平台和其他与分析相关的技术。
Egeria 项目的核心要素包括:
1. **开放元数据标准**:提供了行业标准的定义,帮助实现在多个平台、工具和供应商之间共享元数据。
2. **开放元数据框架(OMF)**:框架提供了一组API和储存库,这些储存库可以托管元数据,并允许不同的数据平台或工具进行连接和互操作。
3. **开放元数据存储库(OMRS)**:它定义了业界一般接受的元数据模型,为元数据管理提供了一个标准的方法。
4. **开放类型**:Egeria 使用了一组开放类型定义,这些类型包含了各种资产和相关元数据属性,进而支持不同系统间的元数据共享。
5. **开放数据血缘**:Egeria 支持追踪数据通过特定过程的转换,从而提供数据血缘和治理的机制。
6. **连接性和集成**:Egeria 提供了对外部系统和工具集成的支持,确保不同技术能够有效连接并交换元数据。
7. **治理和政策管理**:在Egeria平台里,可以定义数据相关的政策和管理规则,以确保数据使用符合企业内部的规范和合规性。
Egeria 项目通过提供这些核心能力,使企业能够在全公司范围内统一管理和治理其元数据,帮助企业获取有关数据的清晰视图以及深层见解。此外,Egeria 社区还不断的提供教程和指引来帮助用户学习和使用这些工具和标准。
轻量化的数据血缘管理工具对于小型团队和项目来说是非常实用的。下面是几个轻量级的数据血缘开源产品:
1. **Marquez**:Marquez 是由 WeWork 开发的一个轻量级的、可扩展的元数据服务,用于描述数据管道(例如ETL、机器学习等)的元数据和血缘。Marquez 采用了 RESTful API,使得开发者可以轻松地集成 Marquez 到各种数据处理和数据科学工具中。
2. **DataHub**:DataHub 是由 LinkedIn 开发的一个元数据搜索和发现工具,提供了数据血缘跟踪功能。DataHub 采用了模块化的架构设计,使得开发者可以根据需要选择自己关心的元数据类型和存储后端。
3. **Amundsen**:Amundsen 是 Lyft 开发的一个数据发现和元数据引擎。Amundsen 提供了包含数据表描述、数据血缘以及数据使用频率等多种元数据信息的搜索服务。
4. **Metacat**:Metacat 是 Netflix 开发的一个元数据服务。它为分布式计算系统(如 Hadoop、Presto 等)提供了统一的元数据 API,并提供了数据血缘跟踪功能。
这些工具虽然相对轻量化,但都具有基本的数据血缘管理功能,可以帮助团队了解数据的来源和去向,从而提升数据的透明度和质量。
本文来自博客园,作者:life_start,转载请注明原文链接:https://www.cnblogs.com/yangh2016/p/18165877