关于数据治理,你需要知道的一些基本概念

过去几年里,数据治理作为数据的核心管理手段,得到了政府、企业、个人的高度关注, 伴随着理论、法律、政策、产业的一系列实质性变化 ,各方正在将数据治理纳入到政务活动、企业治理、经营管理等领域, 数据治理的理念、法规、方法、工具也得到了蓬勃发展。

简单来说,数据治理就是实现数据价值的过程。通俗的理解就是让企业的数据从不可控、不可用、不好用到可控、方便易用且对业务有极大帮助的过程。

这个过程怎么实现?通过采集、传输、储存等一系列标准化流程将原本零散的数据变成格式规范、结构统一的数据,同时对其进行严格规范的综合数据监控,保证数据质量;然后对这些标准化的数据进行进一步的加工分析,形成具有指导意义的业务监控报表、业务监控模型等,来帮助企业进行辅助决策。

今天小亿就来为大家普及一些与数据治理有关的基本概念。

 

一、元数据 

元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据。元数据按照其描述对象的不同可以分为三大类,分别是“技术元数据”、“业务元数据”、“管理元数据”。

1.技术元数据

技术元数据主要是描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面的特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。主要有以下几类类型,如图所示:

 

2.业务元数据

业务元数据主要用来描述记录在系统中业务的相关概念等信息,包括业务术语、信息分类、指标定义、业务规则等内容。它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。这类元数据主要的使用者是业务人员和公司决策人员,主要有以下几种类型,如图所示:

 

3.管理元数据

管理元数据用来定义系统中涉及管理领域的相关概念等信息,包括人员角色、岗位职责等内容,例如对项目管理、IT运维、IT资源设备等相关信息的描述,这里元数据主要被企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。

管理元数据进一步细分又可以划分出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分类。例如操作元数据有系统执行日志;访问模式、访问频率和执行时间;程序名称和描述;版本维护等;备份、归档时间、归档存储信息等。

不管分类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理过程、数据存储要求、数据的安全管理要求等等内容进行规范管理。

 

二、主数据

主数据是指满足跨部门业务协同需要的,反映核心业务实体状态属性的基础信息。举个例子,公司的员工信息,存在于很多业务系统里,比如人力系统、财务系统、OA系统,以及考勤系统等,但每个系统所需要的信息可能不一样,财务系统需要员工开放信息,比如从哪个银行开户,账号是什么,这样方便打款;人力系统可能只是需要员工的一些入职信息。

这样的员工信息就属于主数据,它在很多企业业务系统被使用,同时还能反映这个员工本身的一些属性。类比下,还有产品、物料、客商、客户、供应商等主数据。

1.客商主数据

客商是指与企业有外部交易往来的实体组织,包括客户和供应商。企业规模较大时,客户与供应商就具有了较高的重合度,企业就会将这些外部交易对象作为“客商”来统一管理。

客商主数据则是指能满足跨部门业务协同需要的,反映客商实体状态属性的基础信息。

我们可以把客商主数据看作是“神经中枢”,链接着企业的原材料采购、加工、产品包装、质检、销售、仓库物流、客户满意度评价等多个环节,它的及时性和有效性,影响着每个环节信息的精准分析和决策,从而影响企业在市场竞争中的地位。

 

2.物料主数据

物料是我国生产领域中的一个专业术语,在生产领域流转的一切材料包括:原材料、零部件、半成品、外协件、产成品以及生产过程中必然产生的边角余料、废料以及各种其他废物料。在财务核算上属于资产类存货科目的物品。 

物料主数据包含了对所有企业所采购、生产和存储在库存中物料的描述,主要记录某种物料的各种参数、属性及其相关信息,比如物料编码、物料描述、物料类型和财务成本信息等。它是企业中有关物料信息的物料数据代码库,将所有的物料数据集成在单一的物料数据库中,消除了数据冗余的问题,而且不仅允许采购部门使用这些数据,而且其它应用部门 (例如库存管理、物料计划及控制、发票校验等)也可以使用这些数据。

 

三、数据标准

数据标准是指企业为保障数据的内外部使用和交换的一致性和准确性而制定的规范性约束。而数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

数据标准由业务标准技术标准管理标准组成。例如:数据项的业务定义、业务规则、质量规则为该数据的业务标准;数据项的名称、编码、类型、长度等为该数据的技术标准;数据的管理流程、管理部门、管理人员为该数据的管理标准。

1.业务标准规范

通过对实体数据的标准化定义,解决了数据不一致、不完整、不准确等问题,通知数据的内容范围需要核定,主要和业务强关联,由基础指标和计算指标标准组成,具有特定的业务含义。

 

2.技术标准规范

数据范围规范工作完成之后,需要对数据的编码规则、命名规则进行规范,主要包括数据源、数据项、逻辑模型标准、物理模型标准、元数据、公共码值标准等;

 

3.管理标准规范

数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理绝非是一个部门的事情,不能在企业的单一部门得到解决。数据管理制度章程是确保对标准数据管理进行有效实施的认责制度。建立标准数据管理制度和流程体系是需要明确标准数据的归口部门和岗位,明确各岗位职责,明确每个标准数据的申请、审批、变更、共享的流程。需要从整个组织考虑,建立专业的数据管理组织体系,明确数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

 

四、数据质量

数据质量是指在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量数据的过程质量

数据自身的质量很好理解,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等。

数据的过程质量就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全地存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实也是数据生命周期的各个阶段。

1.数据质量管理

数据质量管理指对数据在每个阶段里可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平确保数据质量的提升。 

换句话说,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。

 

2.数据质量评估 

至于如何去评估数据质量管理的过程的好坏,我们可以从以下五个维度来进行数据质量评估:

(1)完整性:描述信息的完整程度,如电话号码是否有空值;

(2)准确性:描述数据和客观实体的特征是否相一致,如数据库中记录的电话和实际电话不一致;

(3)有效性:数据是否满足用户定义条件、内容规范约束等,如年龄为-32岁,违反常理;

(4)一致性:描述同一个信息主体在不同数据集中的属性是否相同,如岗位名称在CRM系统中和人力系统中不一致;

(5)及时性:描述从业务发生到相关数据能够被使用的及时程度,如实时查看用户行为相关数据。 

五个维度共同构成了数据质量评估的基本框架,每个维度都可以通过设置评估问卷随机抽取一些问题然后收集相应的数据;注意收集数据的时候可以采用不同的方式,访谈、发放链接、随机抽检等等。

  

五、数据指标 

根据百度百科的定义,预期中打算达到的指数、规格、标准,一般用数据表示就是指标。

数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。但只有对业务有参考价值的可统计的数据才能叫做指标,因为它反映了用户做了哪些行为,给业务带来了怎样的结果指标。

1.数据指标的分类

 (1)结果型指标

用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足。

 

(2)过程型指标 

用户在做某个动作时候所产生的指标,可以通过某些运营策略来影响这个过程指标,从而影响最终的结果,过程型指标更加关注用户的需求为什么被满足或没被满足。

 

2.数据指标体系 

数据指标体系是通过技术手段,从不同的“维度”梳理业务过程,将零散的、有关联性的指标,系统化的组织起来,通过数据看板或接口形式,提供给运营、算法等不同的业务方使用。 

一个好的数据指标体系能帮助使用者准确快速地下结论,比如定义业务运作的好坏、能满足多场景的归因,即使出现异动,也能快速定位原因,最终提高发现问题、分析问题、解决问题的效率。

 

六、数据资产

数据资产是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。但在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。

数据资产管理是对存量数据进行系统化梳理,与数据标准匹配,推动数据资源转化为数据资产的过程,即指规划、控制和提供数据及信息的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交互和提高数据资产的价值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。

▲数据治理实施步骤

 

在数据治理架构中,数据资产管理位于底层数据和数据管理与应用之间,处于承上启下的重要地位。对上支撑数据安全管理等职能建设以价值发掘为导向的数据应用,对下实现底层数据的梳理、对接数据标准,达成企业内部“统一数据标准”的目标。

 

七、数据交换与共享 

出于各种原因,组织会选择数据交换与共享。例如,内部与内部的数据交换共享,企业与企业之间的数据交换共享,以及政府或企业对个人或服务提供商的数据交换与共享。数据交换共享就是让不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。 

也就是当数据从一个系统跨授权边界访问或传递到另一个系统时,就需要使用一个或多个协议来指定每个组织的责任、要访问或交换的数据类型和影响界别、如何使用交换数据,以及在交换系统的两端处理、存储或传输数据时如何保证数据安全。

常见的数据交换/共享场景包括但不限于:在授权用户之间共享数据和信息;提供对数据的自定义访问;合作进行联合项目;提供完整的、短暂的、间歇性的、永久的或临时的数据交换共享活动;通过交换共享减少数据收集工作量和成本;提供在线培训;为关键数据和备份文件提供安全存储。

例如,某农发行数据交换平台针对综合业务系统、信贷、国际结算等源业务系统的数据通过亿信数据交换平台进行统一抽取,通过数据转义、码值转换等实现数据标准化,并将处理后的数据以文件或库表等形式下发给消费系统。

(图:农发行数据交换平台架构图)

  

八、数据安全

根据《数据安全法》第三条,“数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。”

数据安全并不仅仅局限于数据本身的安全,而是一个综合概念。在数据从客户端到服务端传输过程中,涉及很多风险因素,比如客户端访问主体的身份是否真实可靠,数据在传输过程中是否完整、防篡改,到达服务端后以明文件存储还是加密存储,以及哪些用户使用等等。

从整体来看,在数据生命周期的每个环节,包括数据收集、存储、使用、加工、传输、提供、公开等,都存在三个重要概念:数据处理主题、数据本身、数据处理行为

从数据源头上,要确保数据采集主题身份真实、可信;对于数据本身,在传输中要确保其真实性(数据来源真实可信)、完整性(数据未被非授权篡改)、机密性(数据未被非授权者获得)、可用性(数据可被授权者正常使用)等;对于数据处理行为,要确保其发送或接收行为、时间点的不可否认性。

 

九、数据生命周期

数据的生命周期是指某个集合的数据从产生或获取到销毁的过程。数据生命周期分为:采集、存储、整合、呈现与使用、分析与应用、归档和销毁几个阶段。在数据的生命周期中,数据价值决定着数据生命周期的长度,并且数据价值会随着时间的变化而递减。

数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从数据创建和初始的存储,直到它过时被删除或销毁。

数据生命周期管理的目标主要有4点:

①通过规范数据的生命周期管理,提高数据的整体管理水平,满足监管要求;

②优化存储结构,有效控制在在线数据规模,提高生产数据访问效率;

③提高系统资源使用效率,确保系统安全、稳定、高效运行;

④做好历史数据管理,为用户的客户服务和经营分析提供数据支撑。

这里需要注意的是,数据的采集粒度与时效性、存储方式、整合状况、可视化程序、分析的深度和应用衔接的程序,都会对数据价值的体现产生影响。所以需针对数据生命周期各个阶段的特点采取不同的管理方式和控制手段。总之,在成本可控、可量化、可管理的前提下,从数据中挖掘出更多有效的数据价值。

与此同时,数据全生命周期管理与企业数据战略也是密不可分的。数据战略决定了数据采集策略和范围、存储和计算资源投入、数据整合能力、可视化的程序和分析的广度与深度等资源投入。

 

十、小结 

通过前文基本概念的介绍,想必大家已经对数据治理有一个整体清晰的认识。狭义上讲,数据治理专注在数据本身。数据治理的目标,是对数据质量进行提高,同时确保数据的安全性,推进数据资源的整合、共享进程。

广义上讲,数据治理是对数据实现全生命周期管理。只要是为整个数据生命期而展开的业务、技术、管理活动,都属于数据治理的范畴,包括但不限于传统数据集成和存储环节的工作(如数据采集、清洗、转换等)、数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等。

业界很多厂商都开发了相关软件工具,但多是单独功能呈现的软件,而睿治数据治理平台是由亿信华辰完全自主研发的、开创性的、一站式综合数据治理整体解决方案。睿治数据治理平台融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,打通数据治理各个环节,十大产品模块可独立或任意组合使用,快速满足政府、企业各类不同的数据治理场景。

睿治数据治理平台架构图

posted @ 2022-05-30 19:20  志恒说数据  阅读(281)  评论(0编辑  收藏  举报