普元云计算-企业如何按需选择元数据管理工具?

转载本文需注明出处:微信公众号EAWorld,违者必究。

 

 

在各种数字化的影响下,将企业环境中的各种元数据整合利用至关重要。对于企业来说,选择适合自己的元数据管理工具将能最大化发挥元数据的作用,以协助企业完成在数据方面的战略目标。

 

企业中不同角色对元数据工具的期望可能有所不同,但这些期望基本都可以映射到元数据管理工具的十大能力上,当然这些能力背后少不了关键技术的支撑。

 

本文分为三部分,在第一部分,我们会先根据企业中的不同角色,列出不同角色对元数据管理的期望;然后在第二部分,总结在理想情况下元数据管理工具需要具备的十大能力,并将这些能力与不同的角色做关联,以便不同企业可以根据自身情况选择合适的元数据管理工具;最后在第三部分,将给出几种现阶段实现元数据管理的关键技术。

 

目录:

 

一、不同角色对元数据管理的期望不同

二、如何选择适合自己的元数据工具?

三、元数据管理的关键技术?

四、总结

 

一、不同角色对元数据管理的

期望不同

 

为了站在不同角色的角度回答这个问题,我们先把企业中与元数据管理项目相关的几种角色列一列,这里暂且将这些角色分为企业高管、数据开发人员、数据分析人员、数据管理人员、运维人员、其他业务用户几种。

 

 

 

图 1:与元数据管理相关的角色

 

 

企业高管:在数据越来越重要的形势下,高管们比较关心的是企业的整个数据全貌以及数据在全企业中的使用状况(或者可以说是更注重数据资产与应用层面),但是没有一个人能直接告诉领导企业中的数据是什么样,具体的使用流通情况是什么,有效的元数据管理能很好地回答企业高管的这些问题。

 

数据开发人员:对于数据开发来说,最常见的问题就是大量的重复工作:明明已经有了一模一样的接口或者脚本,但是因为是别人写的,没有统一标识并管理起来,所以根本就找不到,即使找到了可能也会因为缺少相关的解释说明,根本无法重复利用,降低数据开发效率的同时也造成了大量的冗余。元数据管理能方便数据开发人员查找想重复利用的信息,而解释说明恰好可以通过业务元数据管理来实现。

 

数据分析人员:数据分析人员通常需要通过较高级的数据统计分析实现公司与战略决策、业务或考核相关的目标。对于他们来说,错综复杂的数据关系、参差不齐的数据质量和业务元数据的缺失是主要问题。元数据管理降低了这些信息的获取门槛,也为数据质量的问题追溯提供了支持。

 

数据管理人员:数据管理人员通常需要负责数据从设计、测试到部署交付的全生命周期管理。对于他们来说,通常需要管理各种版本的数据信息,并管理企业数据的生命周期,如何控制各状态下数据的协调一致和及时判断数据处于什么周期需要做什么操作是目前急需解决的问题。这可以通过管理企业元数据来实现。

 

运维人员:对于运维人员来说,需要时刻保证系统的稳定性,尤其是当企业模型发生变更时,要不断判断变更带来的影响,显然人工判断的方式在准确性和实时性上都很难保证,而且对运维人员的业务能力要求较高,很大程度上增加了系统风险。通过元数据管理,当系统变更时,可以根据已经获取到的系统、表等对象间关系自动分析出变更带来的影响,用自动化的方式降低维护成本,提升用户体验。

 

其他业务人员:由于业务人员对业务规则、业务流程比较熟悉,通常不需要对技术细节有很深入的了解,技术门槛往往导致业务人员获取和理解数据难,因为不了解数据存储情况,也很难技术沟通业务需求,往往最终难到手的数据也不是自己想要的,难以匹配业务的快速发展。

 

 

二、如何选择适合自己的

元数据工具?

 

通过以上可以看出,不同用户对元数据管理工具寄予着不同的期望(见图2)

 

 

图 2 :不同用户对元数据管理工具寄予着不同的期望

 

 

企业开展元数据管理项目可能需要解决的是其中一类用户或者其中几类用户的问题,我们先列出一些元数据管理工具的基本能力,然后再将这些能力与上文中的期望对应起来,企业可以通过参考二者之间的对应关系,来指向性地选择适合自己的元数据管理工具。

 

通过大量元数据项目的实践,我总结出了在理想情况下,元数据管理工具需要具备的十种能力,如下:

 

 

 

图 3:元数据管理工具的十种能力

 

  • 元数据采集能力

从错综复杂的企业环境中自动实时解析和采集各种元数据的能力,为应对各种数据环境,这个环节通常需要使用各种技术和语法来支持大数据平台、关系型数据库、第三方工具、存储过程、脚本、文本文件、表格文件的自动化采集。

 

  • 元数据存储能力

将采集过来的元数据进行统一存储的能力,为支持各种元数据以及元数据之间关系的存储,元数据存储需要灵活可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。

 

  • 元数据查找能力

提供统一的端口对元数据进行查找的能力,完善的元数据管理工具应该能支持按照企业的各种分类方法来对元数据进行查找(有一部分分类方式蕴含在元数据本身中,需要通过对元数据进行分析之后获得)。比如你可能会按照系统、表、指标、接口等不同维度查找信息,甚至会根据自己的查找习惯新建一个完全不同的类别。

 

  • 血缘分析/关系分析能力 

分析数据的来源和数据的流向,揭示数据的上下游关系,在元数据管理工具中分析、描述并可视化其中的细节,方便用户对关键信息进行跟踪。完善的血缘分析需要是横向(当前)和纵向(历史)双向可用的,以方便对同一时期不同对象的分析和不同时期同一对象的变化。

 

  • 基于角色的访问控制和分层

元数据的增删改等权限的控制是元数据管理工具中需要特别注意的地方,工具中应该支持访问权限的控制。比如,数据管理员具有所有权限,开发人员可能更关注开发环境、测试环境元数据,而企业管理者可能只关注生产环境的元数据情况,总经理级别的用户可以访问企业多种环境下的元数据,而部门负责人可能只关注与本部门相关的元数据。

 

  • 业务元数据管理能力

采集企业环境中的业务元数据,并完成业务元数据与技术元数据的映射,为元数据赋予业务属性,这也是发挥元数据管理工具业务价值的一个关键。

 

图 4:技术元数据与业务元数据的对应

 

  • 元数据变更控制能力

当元数据需要变更时,提供变更审核能力,明确元数据版本,保存元数据的历史状态,在发生任何问题时可以自动恢复到之前的版本。在某个元数据项发生变更时,可能还需要对该次变更将要产生的影响进行分析和评估。

 

  • 元数据对比分析能力

对不同环境中的元数据进行对比分析,分析其中的异同,必要时还能根据分析结果产出相应的分析报告。

 

  • 数据生命周期管理能力

在理想状态下,元数据管理工具应该保留数据从创建、存储,到过时被删除/备份等各种状态下的元数据,从而管理数据在整个生命周期中的流动。作为一项规则,较新的数据和那些很可能被更加频繁访问的数据,应该存储在容易被访问的位置,而那些不是很重要的数据则可以备份存储在比较便宜的,稍微慢些的媒介上。

 

图 5:数据生命周期

 

  • 与其他系统的集成能力

要想让元数据管理系统发挥业务价值,还有非常重要的一点就是元数据管理工具与其他系统的集成能力。

 

这些能力与刚开始提出的几种需求之间的对应关系整理如下(鉴于元数据采集与元数据存储是几乎每种需求都需要的基本能力,所以我把这两项单独拿出来不参与对应),企业可根据对应关系来选择元数据管理工具:

 

图 6:角色与十大能力的对应关系

 

三、元数据管理的关键技术?

 

一般来说,元数据管理项目需要用到众多技术,在这里讲四种:高度灵活可扩展的架构、角色访问控制和分层、业务元数据与技术元数据对应、与其他系统的集成。

 

图 7:元数据管理的关键技术

 

  • 高度灵活可扩展的架构

 

企业数据环境中的数据杂乱,形态多样,标准不一,若要实现所有元数据的有效采集或者自动化采集和存储,必须有高度灵活可扩展的架构支撑,也意味着元数据的架构要能和企业的各种模型进行“交流”,这在之前王轩的文章《大数据治理技术核心,可扩展的元数据架构设计》中提及到了具体方法,在这里不再多说。

 

  • 角色访问控制和分层

 

如上文所述,企业元数据管理涉及到很多不同的人员,优秀的元数据管理工具应该做好角色访问控制,具体实现方法可以归结为两种:

 

1、在平台汇总建立角色分层机制/角色组,将企业中的不同角色按照具体需求分类到不同的角色组中,对不同角色组展示不同的功能。

 

2、在工具内部建立角色与功能之间的映射,并且支持根据企业情况进行灵活配置(毕竟各企业的角色和所对应的功能不尽相同),根据映射对不同角色展示不同的功能。

 

  • 业务元数据与技术元数据的对应

这是企业从数据管理向知识管理转变的关键,关于业务元数据与技术元数据的对应,可以参考我们之前写过的文章。另外我认为除了领域本体构建,编织模型(Weaving Model,V. Stefanov提出)未来也可能会成为对应二者之间关系的一种技术,这种方式通过编织模型来存储和管理企业不同模型之间的关系,例如,通过建立星型模型/雪花型模型与业务流程模型、企业组织架构等之间的关系,可以自动获取到数据所对应的业务信息和管理者信息等。 

 

  • 与其他系统的集成

随着各种数据政策的出台,元数据成为企业各种流程中不可或缺的重要部分,人们对元数据驱动的呼声越来越高,而要实现元数据驱动,除了元数据分类和模型的标准化,元数据管理工具是否与企业的其他系统(比如,CRM、ERP、SCM、OA等系统,还有同与数据管理相关的数据标准系统、数据质量系统)集成,为其他系统提供元数据服务,是主要的关键点。一种方法是向企业中的不同角色、不同用户、不同系统提供可以灵活配置的接口,实现全企业的而高效协作;另一种方法是将元数据管理工具直接集成到企业的portal中,在企业其他信息系统中保留元数据存储库的入口。

 

图 8:元数据管理的需求-能力-技术模型

 

不同的企业对元数据管理有不同的需求,企业要选择最适合自身情况的元数据管理工具。本文给出了基于角色的元数据管理需求,以及这些需求与元数据管理十大能力之间的映射关系,这种映射关系可以帮助企业选择具有特定能力的元数据管理工具,在最后,对几种支撑这些能力关键技术做出了解释。

 

参考文献:

 

1.王轩. 大数据治理技术核心,可扩展的元数据架构设计[EB/OL]. http://www.cbdio.com/BigData/2016-07/12/content_5076844.htm.

2.V Stefanov. Explaining Data Warehouse Data to Business Users.[EB/OL]. http://aisel.aisnet.org/cgi/viewcontent.cgi?article=1070&context=ecis2007.

3.KM, Hüner. Collaborative management of business metadata[EB/OL]. https://www.sciencedirect.com/science/article/pii/S0268401210001817.

 

关于作者:龚菲,现任普元数据治理团队产品工程师,3年数据治理经验,负责国内外数据治理趋势研究、普元数据治理产品研究与推广,掌握国内外数据治理产品的发展趋势,编写了一系列数据治理文章。先后参与了华夏人寿、海通证券、东方航空等数据项目,尤其是对元数据相关理论与业界产品有深入了解,擅长业务元数据管理、本体构建等元数据相关领域知识。

 

关于EAWorld:微服务,DevOps,数据治理,移动架构原创技术分享,长按二维码关注

 

posted @ 2018-06-12 10:24  普元云计算  阅读(298)  评论(0编辑  收藏  举报