元数据是提升数据价值的前提,是数据治理的基石

大数据时代的到来意味着数据的海量性和复杂性,也意味着对原数据处理过程的更高要求。

例如金融大数据,特别是银行大数据建设过程中,必然遇到数据种类繁杂,体量庞大,多组件的ETL交叉加工。随着平台在应用上的不断推广创新,作为基础的数据也会随之飞速增长,增长的数据带来数据血缘不清晰,数据重复存储加工,数据口径混乱,数据质量参差不齐等一系列问题。而要解决这个问题,就要做好最核心的元数据管理。 

对企业来说,一个小小的元数据可能造成巨大的损失,也可能创造无限的便利。今天小亿就来为大家说说什么是元数据?元数据的作用是什么?如何管理元数据,以及元数据的应用都有哪些?

 

一、什么是元数据? 

元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据。 

元数据不仅仅表示数据的类型、名称、值等信息,它可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。

例如:元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。 

除此以外,在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。可以说,有了元数据,开发人员便可以方便的找到统计数据背后的计算逻辑与过程,用于指导开发工作并追踪数据问题,可以极大的提升工作的效率。

 

二、元数据都有哪些类型? 

元数据按照其描述对象的不同可以分为三大类,分别是“技术元数据”、“业务员数据”、“管理元数据”。 

1.技术元数据

技术元数据主要是描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面的特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。主要有以下几类类型,如图所示:

 

2.业务元数据 

业务元数据主要用来描述记录在系统中业务的相关概念等信息,包括业务术语、信息分类、指标定义、业务规则等内容。它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。这类元数据主要的使用者是业务人员和公司决策人员,主要有以下几种类型,如图所示: 

 

3.管理元数据

管理元数据用来定义系统中涉及管理领域的相关概念等信息,包括人员角色、岗位职责等内容,例如对项目管理、IT运维、IT资源设备等相关信息的描述,这里元数据主要被企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。

管理元数据进一步细分又可以划分出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分类。例如操作元数据有系统执行日志;访问模式、访问频率和执行时间;程序名称和描述;版本维护等;备份、归档时间、归档存储信息等。

不管分类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理过程、数据从存储要求、数据的安全管理要求等等内容进行规范管理。

 

三、元数据的作用是什么?

在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。在传统意义上,元数据有两方面的用处: 

第一,帮助数据平台了解自己本身的情况。例如:有哪些数据、存储的数据有多大、如何找到所需要的数据、数据何时产出等等信息,当我们拿到这些信息后,就可以做对应运维报警等工作。 

 第二,帮助数据平台制定数据统计的标准。例如:数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。

  

四、如何管理元数据?

元数据也是根据实际业务场景定义属性,元数据会有通用的属性,比如名称、类型,不同类型的元数据还会有自己特定的属性。元数据既然也是数据,肯定是存储在数据库中的。元数据存储库是指存储元数据的物理数据库表,通常采用开源的关系型数据库(MySQL)实现元数据存储,下面从几个方面展开说说如何管理元数据:

1.确定元数据范围

首先确定元数据来源范围,在实际的工作中,不是所有数据都是要做元数据管理,通常我们会选择业务数据做元数据管理,非业务数据是不会纳入管理范围内的,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。

确定规则后,就要结合公司的实际情况去梳理哪些业务系统、数据库、数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化的元数据抽取,例如:word、pdf等。

 

2.接入元数据 

元数据从哪接入,一般都是从源系统接入。假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。但这种方案也是存在风险的,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。

那就不得不提亿信华辰的元数据管理系统,它完美地实现了数据的自动化采集,提供多种数据库适配器,实现元数据的管理、分析与采集,可以从Oracle、MySQL、SQL Server等数据库中采集数据,从excel文本中采集,并且还内置Hbase等分部署数据库采集适配器,可满足不同场景的业务需求。

 

3.建立元数据标准

在梳理的过程中可能会出现有些数据库或者有些数据定义不规范的情况,导致元数据管理无法进行下去。那接下来需要建立元数据的管理规范,去反推前端的源数据进行整改,主要是保证元数据的完整性和一致性。 

针对不同的类型的公司要求,元数据会开放给不同的人群,所以要对元数据进行权限管理,规范里面就需定义权限的管理流程:元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程。

 

4.元数据的维护 

元数据维护主要是对已经发布的元数据进行维护管理,已经发布上线的元数据,如需调整、优化则必须重新走元数据发布流程,不准许对元数据进行直接修改。为了安全,元数据所有操作行为都要记录到元数据操作日志里面。

可以对元数据创建目录将不同的元数据挂在对应的目录下,按照业务流程、业务主题域、开发流程设计对应的目录,主要还是根据公司要求设计。

 

5.元数据的查找、分析、报告 

有单独的页面支持元数据的模糊或精准快速查找,通过输入关键信息查找对应的元数据。还可以将元数据作为数据资产的一类,因此我们需要产出元数据资产报告,从报告中能够快速的了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。 

在这里亿信华辰的元数据管理平台内置全文搜索引擎,让各层次用户可快速定位自己所关心的元数据。该管理平台支持基于名称、基本属性、元数据间关系查找的同时,还支持全文搜索。通过多种组合条件的模糊查询,即可在整个元数据环境中随时检索所需元数据。

 

五、元数据的应用都有哪些?

企业业务多样、产品纷繁复杂,在各类系统和应用中形成了大量的数据。有了元数据,我们就可以了解企业拥有什么数据,数据表示什么、数据来自何处、它如何在系统中流转等等,进行元数据管理、构建元数据应用,如业务术语、数据标准、数据字典、数据资产目录、数据血缘分析、数据地图等。下面我们主要说说数据血缘关系和数据地图。

 

1.数据血缘分析

数据血缘是元数据的重要应用,数据血缘能够说明数据与数据之间的关系,比如说这张表是从某个系统抽取过来的,这个字段和那个字段有什么关系,包含了集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系,其指向数据的上游来源,向上游追根溯源。 

 向上、向下表级、字段级别的追溯数据,能清晰展现数据加工处理逻辑脉络,快速定位数据异常字段影响范围,准确圈定最小范围数据回溯,降低了理解数据和解决数据问题的成本。血缘分析可以满足许多行业(包括医疗、金融、银行和制造业等)对所呈现数据的特殊监管及合规性要求。比如亿信元数据管理平台(EsPowerMeta)就提供了图形化的元数据基础分析以及高级应用分析。 

除此以外,影响度分析,也是较为血缘关系应用的一部分,其用来分析数据的下游流向。当系统进行升级改造时,能动态数据结构变更、删除及时告知下游系统。通过依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,哪些表和哪些字段。从而减少系统升级改造带来的风险。

 

2.数据地图 

数据地图在整个数据体系中,承担的是一种管理者的角色,通过图形化的方式来展示数据信息,并标明数据计算中所必要的各种信息参数,不仅数据开发人员可以使用,对于产品和运营来说也是非常友好的。它包含的内容有如下几个部分:

(1)快速的搜索定位:通过搜索引擎的方式来查找相关数据,支持精确查询、模糊查询、表名查询、字段查询、备注查询等方式;

(2)标准化的图形展示:采用图形化的方式来组织页面逻辑,例如采用类似Wifi图标的形式来标注数据质量级别,肉眼可见的便捷,方便使用者所需要的关键信息; 

(3)积累历史数据信息:在很多场景下,历史数据是不需要重复计算的,直接拉取能够极大的避免重复开发。例如针对新用户的统计,可以拉取历史用户信息,和每日用户登录日志进行关联,用于生产每日新增用户; 

(4)直接关联分析工具:因为数据的信息直接存储在平台上,因而可以调用报表插件来快速看到直观的报表信息,不需要二次加工开发,很大的提升了开发的效率。

有了这些,业务人员可以了解企业的数据有哪些,通过数据的业务内涵更好地理解数据;技术人员可以掌握数据的整体情况,根据数据标准建立数据库表,实现落标,达到数据标准化。数据血缘和数据地图将会使数据脉络格外清晰,再也不会觉得数据一团乱麻了。

 

六、小结

如何从数据中探索信息、发现知识,寻找隐藏在数据中的趋势、模式、相关性及隐含规律,都要我们用于更好的数据洞察力,而这种洞察力的基础来自我们对元数据的理解。

元数据是用数据管理数据,是快速查找数据、精确定位数据、准确理解数据和有效使用数据的关键。元数据管理还须符合数据标准、较高的数据质量、数据安全、数据共享、合理顺滑管理流程。在存储、计算和人力成本合理可控、可管理的前提下,使数据价值得最大发挥,是数据全生命周期管理重要组成部分,是提升数据价值发挥的前提,是数据治理的基石。

在过去,亿信华辰成功帮助佛山某区政务服务数据管理局搭建了元数据管理平台,本项目通过元数据管理平台,梳理各类数据来源,实现卫计委、工商局、流管局等各政府部门的元数据自动采集,理清现有的数据流转流程和数据架构,并基于其构建一套新的数据架构,同时提供数据血缘分析、影响分析等,最后形成全区的政务数据地图,为后续数据标准建设,数据质量管理打下坚实的基础,并为政务资源目录、自主填报系统、教育无纸化等应用提供支撑。

posted @ 2021-06-25 17:28  志恒说数据  阅读(216)  评论(0编辑  收藏  举报