数据中台(数据资产管理篇)

数据资产管理

声明:本文归属一寸HUI所有。@一寸HUI

在上一篇文章数据中台(架构篇)中了解到了数据中台的架构,其中我们一个很重要的部分就是要构建数据资产管理,这部分我们就来了解下什么什么数据资产,数据资产管理了什么。

数据资产管理介绍

1.定义

在明白数据资产管理之前,要明白管理的数据资产是什么?

数据资产”定义为:“由企业拥有或控制的,能够为企业带来未来经济利益的,以物理或者电子的方式记录的数据资源,如文件资料、电子数据等。”

从上面的数据资产定义来看,数据资产具有如下3个特征:

1)“企业拥有或控制”。 这个特征指明数据是有其主体的,同时也说明数据资源既可能来源于企业内部的信息系统或者日常经营活动的沉淀, 可能是企业通过外部的交换、购买等手段获取的。
2)“能带来未来经济利益”。 这个特征清楚表明,在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
3)“数据资源”。 这个特征表明数据资产的存在形态,是以物理或者电子方式记录下来的数据。

数据资产管理”的定义为:“规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。”

数据资产管理在数据中台架构中处于中间位置,介于数据开发和数据应用之间,处于承上启下的重要地位。数据资产管理对上支持以价值挖掘和业务赋能为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理,并对企业数据资产的价值、质量进行评估,促进企业数据资产不断自我完善,持续向业务输出动力。

2.数据资产管理现状和挑战

缺乏统一的数据视图:数据资源分布在企业的多个业务系统中,分布在线上和线下,甚至分布在企业的外部。

数据基础薄弱:大部分企业的数据基础还很薄弱,存在数据标准混乱、数据质量参差不齐、各业务系统之间数据孤岛化严重、没有进行数据资产的萃取等现象,阻碍了数据的有效应用。

数据应用不足:受限于数据基础薄弱和应用能力不足,多数企业的数据应用刚刚起步,主要在精准营销、舆情感知和风险控制等有限场景中进行了一些探索,数据应用的深度不够,应用空间亟待开拓。

数据价值难估:企业难以对数据对业务的贡献进行评估,从而难以像运营有形资产一样运营数据。产生这个问题的原因有两个:一是没有建立起合理的数据价值评估模型;二是数据价值与企业的商业模式密不可分,在不同应用场景下,同一项数据资产的价值可能截然不同。

缺乏安全的数据环境:数据的价值越来越得到全社会的广泛认可,但随之而来的是针对数据的犯罪活动日渐猖獗,数据泄露、个人隐私受到侵害等现象层出不穷。很多数据犯罪是由安全管理制度不完善、缺乏相应的数据安全管控措施导致的

数据管理浮于表面:没有建立一套数据驱动的组织管理制度和流程,没有建设先进的数据管理平台工具,导致数据管理工作很难落地。

数据资产管理

1.目标

可见:通过对数据资产的全面盘点,形成数据资产地图。针对数据生产者、管理者、使用者等不同的角色,用数据资产目录的方式共享数据资产,用户可以快速、精确地查找到自己关心的数据资产。

可懂:通过元数据管理,完善对数据资产的描述。同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人 可懂的、无歧义的数据资产。具体来说,在数据中台之上,需要将数据资产进行标签化。标签是面向业务视角的数据组织方式。

可用:通过统一数据标准、提升数据质量和数据安全性等措施,增强数据的可信度,让数据科学家和数据分析人员没有后顾之忧,放心使用数据资产,降低因为数据不可用、不可信而带来的沟通成本和管理成本。

可运营:数据资产运营的最终目的是让数据价值越滚越大,因此数据资产运营要始终围绕资产价值来开展。通过建立一套符合数据驱动的组织管理制度流程和价值评估体系,改进数据资产建设过程,提升数据资产管理的水平,提升数据资产的价值。

2.数据资产管理vs数据治理

数据治理(Data Governance,DG)是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。传统的数据治理内容通常包含数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容

数据治理的目标是保障数据资产的质量,促进数据资产的价值创造。这个根本目标可以分解成以下6项:

  • 提升数据质量,帮助做出基于数据的更高效、更准确的决策;
  • 构建统一的、可执行的数据标准;
  • 良好地响应数据生产者、消费者、数据处理技术人员等数据利益相关者的需求,如保护好客户(数据生产者)的数据隐私和数据安全;
  • 培训组织内所有的管理层和员工,让大家采用共同的解决数据问题的办法;
  • 实现可重复的数据管理流程,并确保流程透明;
  • 实现数据的可持续运营、数据资产的增值。

数据治理的6个原则:

  • 标准化原则:数据标准化是实现高价值数据、支撑以数据为基础的相关业务的先决条件。组织必须制定可参考、可落地的标准。
  • 透明原则:除了一些需要保密的安全措施之外,数据治理相关的文件、数据问题的发现等,都应该是公开透明的,相关人员应该清楚正在发生的事情,以及事情发生后应如何按照原则处理。
  • 数据的认责与问责:数据治理必须解决无人问责的问题,比如将很多岗位列为负责人,最终却没有人真正负责。数据的认责是数据治理的先决条件,数据的问责和考核制度是确保数据治理工作真正落地的制度保障。
  • 平衡原则:在大数据时代,时时刻刻都在涌现海量数据。在进行数据治理工作的过程中,必须在代价和收益之间取得平衡。往往没有必要追求百分之百的数据质量,而对于历史遗留数据,数据标准也不可能对其进行完全约束。很多时候,对于企业来说,数据可商用是平衡原则的重要参考。
  • 变更原则:随着市场和业务的不断发展,数据标准、元数据、数据质量等要求并不是一成不变的,既要控制数据的变更流程,也要主动适应这些变化,推动标准更新。
  • 持续改进原则:业务在不断变化,数据在持续产生,数据治理非朝夕之功,需要持续推动,不断改进,形成长效机制。

数据治理和数据资产管理的定义有异曲同工之处,它们围绕的对象都是数据资产。数据标准管理、元数据管理、数据质量管理和数据安全管理等同时也属于传统数据治理的必要工作内容。数据资产管理在传统数据治理的基础上,加入了数据价值管理、数据共享管理等内容。可以这么理解:数据资产管理就是传统的数据治理的升级版,可以认为是数据治理2.0。

3.数据资产管理职能

《数据资产管理实践白皮书4.0》中规定,数据资产管理的管理职能包括数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理和数据共享管理共8个方面。而在数据中台中,还可以包括数据资产门户、生命周期管理、 标签管理3个新的管理职能。

1.数据标准管理

大数据的标准体系框架共由7个类别的标准组成,分别为基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准及行业应用标准。

数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义;数据标准的目的是使组织内外部使用和交换的数据是一致的、准确的。通常可分为业务术语标准,参考数据和主数据标准,数据元标准,指标数据标准。

  • 业务术语是被批准、管理的业务概念定义的描述,需要通过流程来定义组织如何创建、审批、修改和发布统一的业务术语。
  • 参考数据是用于将其他数据进行分类或目录整编的数据,可以简单理解为是数据字典,是数据可能的取值范围。
  • 主数据是组织中需要跨系统、跨部门共享的核心业务实体数据。主数据因为其重要价值,被喻为企业的黄金数据记录,如多个系统共享的客户、商品等核心业务实体数据。
  • 数据元是用一组属性描述其定义、标识、表示和允许值的数据单元,是描述数据的最基本单元。数据元由3部分组成:对象类、特性、表示值域和数据类型的组合。
  • 指标数据是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、指标解释、时间限定、其他条件限定、指标数值等组成,如企业的人均利润率、季度离职率等。

数据标准管理是指数据标准的制定和实施的一系列活动,关键活动包括:

  • 理解数据标准化需求;
  • 构建数据标准体系和规范;
  • 规划制定数据标准化的实施路线和方案;
  • 制定数据标准管理办法和实施流程要求;
  • 建设数据标准管理工具,推动数据标准的执行落地;
  • 评估数据标准化工作的开展情况。

数据标准化的难题和应对方案:

一是制定的数据标准本身有问题。 有些标准一味地追求先进,向行业领先者看齐,标准大而全,脱离实际的数据情况,导致很难落地。

二是在标准化推进过程中出了问题。 这是笔者重点阐述的原因,主要有以下几种情况:

  • 对建设数据标准的目的不明确
  • 过分依赖咨询公司
  • 对数据标准化的难度估计不足
  • 缺乏落地的制度和流程规划
  • 组织管理水平不足

应对方案:

  • 第一,制定可落地的执行方案。 执行方案要侧重于可落地性,不能落地的方案最终只能被废弃。一个可落地的方案要有组织架构和人员分工,每个人负责什么,如何考核,怎么监管,都必须纳入执行方案中。
  • 第二,正确认识数据标准建设的目, 即是统一组织内的数据口径,指导信息系统建设,提高数据质量,更可信地处理和交换数据,而不是应付上级和监管机构的检查。
  • 第三,正确认识咨询公司在数据资产管理工作前期的作用。 咨询公司的定位应该是准确评估组织的数据管理水平,制订可以落地的方案,而不应一味地追求咨询输出物的技术含量。
  • 第四,充分认识到数据标准化的难度。 要取得管理决策层的支持,提升组织管理水平,做好长期推进的工作准备,建立起数据标准化的工作制度和流程,遇到问题通过正式的流程和沟通机制逐步解决。
  • 第五,实际落地中,建立起科学可行的数据标准落地形式。

2.数据模型管理

数据模型是指对现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。

数据模型管理主要是为了解决架构设计和数据开发的不一致,而对数据开发中的表名、字段名等规范性进行约束。数据模型管理一般与数据标准相结合,通过模型管理维护各级模型的映射关系,通过关联数据标准来保证最终数据开发的规范性。理想的数据模型应该具有非冗余、稳定、一致和易用等特征。

数据模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型3种。

  • 概念模型是一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,与具体的数据库管理系统无关。
  • 逻辑模型是一种以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型。逻辑模型可用于指导在不同的数据库管理系统中实现。逻辑数据模型包括网状数据模型、层次数据模型等。
  • 物理模型是一种面向计算机物理表示的模型,描述了数据在存储介质上的组织结构。物理模型的设计应基于逻辑模型的成果,以保证实现业务需求。它不但与具体的数据库管理系统有关,而且还与操作系统和硬件有关,同时考虑系统性能的相关要求。

数据模型管理的关键活动包括:

  • 定义和分析企业数据需求;
  • 定义标准化的业务用语、单词、域、编码等;
  • 设计标准化数据模型,遵循数据设计规范;
  • 制定数据模型管理办法和实施流程要求;
  • 建设数据模型管理工具,统一管控企业数据模型。

数据模型是数据资产管理的基础,一个完整、可扩展、稳定的数据模型对于数据资产管理的成功起着重要的作用。通过数据模型管理可以清楚地表达企业内部各种业务主体之间的数据相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于企业内部业务数据的统一完整视图。

3.元数据管理

元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。详情见数据中台(元数据篇)

4.主数据管理

主数据(Master Data)是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础。

主数据管理(Master Data Management,MDM)是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。主数据管理的主要内容包括如下几项。

  • 主数据相关标准及规范设计:主数据的标准和规范是主数据建设的核心工作,需要企业抽调专业人员集中精力进行梳理和汇总,建立一套完整的标准体系和代码库,对企业经营活动中所涉及的各类主数据制定统一数据标准和规范,如数据模型标准、数据编码标准、主数据接口标准等。
  • 主数据建模:对主数据进行数据模型设计,建立主数据架构的物理模型,包括数据属性的定义、数据结构设计、数据管理定义等方面,通过数据发布来创建数据存储实体。
  • 主数据梳理与集成:根据主数据标准规范,依托于数据集成平台以及主数据质量模块,辅助业务部门将现有的主数据内容重新进行数据编码、数据转换、数据清洗等,形成企业标准的主数据库。
  • 主数据质量管理:对主数据系统中的数据质量进行统一闭环管理,覆盖数据质量的定义、监控、问题分析、整改和评估,推动质量问题的解决。围绕数据质量管理,建立考核机制,提升数据资产的业务价值;在数据清洗过程中,进行数据质量的管理,并生成数据质量报告,提供数据质量管理服务。
  • 建立灵活的主数据共享服务:主数据的特殊性决定了主数据与业务系统需要频繁的数据共享,主数据管理系统需提供灵活的服务接口,保证能够快速实现数据集成且最大程度减少集成成本。
  • 建立主数据维护流程:协助梳理企业内主数据管理相关流程,明确流程流转方向,以及各环节表单及责任人,并在主数据系统中进行流程配置,逐步实现梳理成果的自动化落地,在主数据系统中实现跨业务部门的流程贯通。

5.数据质量管理

做数据质量管理,首先要搞清楚数据质量问题产生的原因。原因有很多方面,比如技术、管理、流程等。

围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。

数据质量评估的标准:

  • 准确性: 描述数据是否与其对应客观实体的特征一致。
  • 完整性: 描述数据是否存在缺失记录或缺失字段。
  • 一致性: 描述同一实体同一属性的值在不同的系统中是否一致。
  • 有效性: 描述数据是否满足用户定义的条件或在一定的取值范围内。
  • 唯一性: 描述数据是否存在重复记录。
  • 及时性: 描述数据的产生和供应是否及时。
  • 稳定性: 描述数据的波动是否稳定,是否在其有效范围内。
  • 连续性: 描述数据的编号是否连续。
  • 合理性: 描述两个字段之间逻辑关系是否合理。

要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。

  • 首先需要梳理和分析数据质量问题,摸清数据质量的现状。在这个过程中,需要用到数据质量评估标准和评估工具,对业务数据进行全部或抽样扫描,找出不符合质量要求的数据,形成数据质量报告,提供给用户参考。
  • 然后针对不同的质量问题选择合适的解决办法,制订详细的解决方案。
  • 接着是问题的认责,追踪方案执行的效果,监督检查,持续优化。
  • 最后形成数据质量问题解决方案的知识库,以供后来者参考。
  • 不断迭代上述步骤,形成数据质量管理的闭环。

6.数据安全管理

详情见数据中台(安全篇)

7.数据价值管理

数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。

数据成本一般包括采集、存储和计算的费用(人工费用、IT 设备等直接费用和间接费用等)和运维费用(业务操
作费、技术操作费等)。

数据成本管理从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。

数据价值(收益)管理从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。比如可以选择数据热度、广度等作为数据价值的参考指标,通过 ROI 评估,高效管控和合理应用数据资产。

数据资产价值评估方法:市场法、成本法和收益法三种,三种方法的优缺点如表所示:

进行数据价值管理的关键性活动包括:

  • 确定企业数据集成度水平;
  • 确定企业数据的应用场景;
  • 确定数据存储、计算和运维的成本预算;
  • 明确数据成本和收益的具体计量指标;
  • 计算数据在不同应用场景下的成本和收益;
  • 计算企业数据资产的总体成本和收益;
  • 制定数据成本优化方案和提升数据增值方案;
  • 审核、改进方案。

8.数据共享管理

数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。

数据内部共享的关键步骤是打通企业内部各部门间的数据共享瓶颈,建立统一规范的数据标准与数据共享制度,数据外部流通和对外开放可以通过数据直接交易与提供数据分析信息的两种方式实现,将数据中符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享交换或开放发布。

数据共享管理的关键活动包括:

  • 定义数据资产内部共享和运营流通监控指标;
  • 设计数据资产内部共享和运营流通管理方案;
  • 制定数据资产内部共享和运营流通管理办法和实施
    流程要求;
  • 监控数据资产内部共享和运营实施;
  • 监督落实数据内部共享与外部流通等合规性管理要求;
  • 分析内部共享与运营流通指标,评价运营效果并改进。

9.生命周期管理

数据资产管理过程中,生命周期的管理也是非常重要的部分,每一类数据都有其价值周期,要设置一个合理的数据生命周期需要考虑各方面的因素。在数据中台的实践过程中,首先会将数据分成两类:不可恢复的数据与可恢复的数据。一般涉及原始数据的,都会被定义为不可恢复数据,即清除后没办法找回来;而一些中间过程或者结果数据,只要原始数据在并且相关的加工逻辑在,都可以被重新加工恢复。因此在生命周期的管理策略上,也需要区别对待。

1.不可恢复数据
一般建议策略为永久保存,在实际实施过程中可以根据企业各方面因素来综合考虑。数据当前没价值不代表未来没有价值,只是当前的技术、认知和场景没有办法使用其中的价值。当然也需要从企业成本考虑,如果什么数据都存,成本部分又无法承受,那反而会将数据变成一种负债,拖累企业发展。在实施过程中,可以考虑冷数据用低价存储的方式,未来需要使用时再进行恢复,虽然可能会有一些效率上的浪费,但和实际的资金成本平衡后也是常常会选择的方式。

2.可恢复的数据
这类数据只需要有原始数据和加工模型在,就可以通过平台的调度策略进行恢复,因此这类数据的生命周期一般会根据实际使用情况来灵活调整。平台侧可以根据数据使用情况,推荐具体的生命周期保留时长,用户也可以自主选择设置,让生命周期的设置符合实际企业需要。

生命周期管理提供生命周期的设置和自动清理功能,还提供了生命周期建议的功能,即结合数据的热度、存储量变化情况给用户建议的生命周期,帮助用户合理配置。

10.标签管理

标签是一类重要的数据资产。把标签定义为对象的一种描述方法,成为更容易被理解、被识别的一种分类及描述的组织形式。业界常见的标签一般分成两类:

  • 一类是数据的分类方式,如根据数据的来源、更新频率、归属部门等进行标识和分;
  • 一类是对数据的内容进行重新描述甚至是重新组织的方式,如根据行为特点组织的还贷能力、某个属性从业务视角的重新定义等。

标签管理一般包含标签体系的管理、标签与数据映射关系、标签的应用管理。

11.数据资产门户

1.数据资产地图

数据资产地图为用户提供多层次、多视角的数据资产图形化呈现形式。数据资产地图让用户用最直观的方式,掌握数据资产的概况,如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等。

2.数据资产目录

数据资产目录通过对数据资产良好地组织,为用户带来直观的体验,可以使用户花较少的时间查找到自己关心的数据资产。

数据资产目录的组织方式灵活多样,常见的有按业务域组织、按数据来源组织、按数据类型组织。

3.数据资产检索

数据资产检索服务为用户提供了一键式的资产检索服务,通过对关键字的匹配,数据资产门户检索出相关的数据资产集,用户可以根据需要找到相关的数据资产,可以查看数据资产的名称、创建者、业务语义、加工过程等详情,帮助自己理解和使用数据。

参考:

基于Apache doris怎么构建数据中台(三)-数据资产管理
基于Apache doris怎么构建数据中台(五)-数据质量管理
《数据中台:让数据用起来》
《数据资产管理实践白皮书4.0》

posted @ 2022-01-24 15:50  一寸HUI  阅读(4420)  评论(0编辑  收藏  举报