什么是数据治理?
数据治理是什么?为什么要实施数据治理?以及该如何开展数据治理工作,才能引领企业加快数字化转型,从而获取更大的业务价值。
定义
数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。简单来说,数据治理就是实现数据价值的过程。通俗的理解就是让企业的数据从不可控、不可用、不好用到可控、方便易用且对业务有极大帮助的过程。
与数据管理、数据管控有何不同
(1)数据治理面对的更多是战略层面、组织层面、制度层面的事务,是确立“什么样的决策需要在什么层级制定”。所以,数据治理是一个相对高阶的概念。定义责任主体,落实工作机制。
(2)数据管理是操作和实施层面的概念,是通过一系列实际落地的办法去实现“治理”目标的具体过程。数据管理对应的是一个以“数据管理部”级别的职能部门+各个相关职能部门的矩阵化组织。通过内建组织机构和工作机制,有牵头、有配合、有主责、有落实,在各自的职能领域去完成数据管理的具体任务,包括企业级层面的数据标准化、数据资产管理,业务领域层面的数据规范化、数据质量改进等等。
(3)数据管控是对“数据管理”要求在业务过程、产品设计、开发实现层面的具体实施。管控离不开“制度”+“规范”+“工具”+“考核反馈”,每一个管控机制,都应该有一个PDCA的管理循环。数据管控的落地,制度设计和规范定义层面,需要数据管理部门牵头推进,同时,也需要技术部门的工具和系统能力支撑,才能“管得了,管得住,管到位”。
为什么要实施数据治理?
各行业的信息化发展和建设水平并不均衡,对于部分行业,信息化还处于刚刚起步的阶段。但我们可以从金融行业、通讯行业、地产行业、传统制造业以及农业领域总结出规律:企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大阶段,也由此导致了一些问题:
1.数据质量参差不齐现在,企业越来越重视管理数据资产,但其实并不是所有数据都是数据资产,数据中也有垃圾数据。由于企业各个业务系统或模块都是按照各自的需要录入数据,业务系统不需要的信息就不录,没有统一的录入工具和数据出口,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。
2.IT系统孤岛化,数据流通受阻目前,大多数企业的信息化建设初期缺乏整体规划,大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,于是数据的价值不能充分发挥。
3.缺乏有效管理机制许多企业尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,比如平台间数据标准不一,缺少全局规范文档,信息无法对接应用等,在数据流转过程中,导致了大量的垃圾数据。以外,数据产权不明确,管理职责混乱,管理和使用流程不清晰,也是造成数据质量问题的重要因素。
4.存在数据安全隐患近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。
综上所述,看似表面的数据问题其实会对业务带来严重的影响。数据不真实、不准确、数据不透明、不共享都将增加企业经营风险、管理难度和复杂度。最终导致跨组织信息共享程度低、资源难于整合。而数据治理是所有数据应用的基础和根基,它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也是一个组织进行数据资产沉淀的基础,直接决定了一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分发挥数据价值。
数据治理的目标
数据治理本身不是目标,它只是实现组织战略目标的一个手段,即通过有效的数据资源控制手段,进行数据的监督管理,以提升数据质量进而提升数据变现的能力和管理的效率。
数据治理包含哪些内容
数据治理并不是某一个系统应用,而是一个以系统工具为支撑、管理机制为基础的系统工程,只是各数据治理项目切入点有所不同,比如:
①面向源端的业务系统去进行数据治理,可能解决的是流程-数据一体化治理的问题,保证各个业务系统和职能之间的流程贯通;
②面向大数据平台的建设阶段或运营阶段的数据治理,这个时候更多考虑到的是数据之间的拉通,数据标准的统一,数据质量的监控,数据平台各层之间的数据血缘关系,数据流;
③对于一些先进企业,他们的数据会涉及对外共享合作,那么,企业的数据治理机制也会发生改变。针对需要共享的数据,企业更多优先关注数据权属问题,同时,考虑如何通过多方计算,联邦学习等技术从数据安全的角度保证数据的共享。
虽然切入点不同,包含的内容也不尽相同,但是数据治理无非是对于企业级数据、某个业务主题数据、某系统数据等不同定位的业务数据进行有效管控,而且目前主流的数据管理方式是以元数据为核心的梳理,所以建设内容基本上也是在元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、数据生命周期、数据安全等不同方面进行自由组合,只是面向的数据范围不同而已。
1.元数据
元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
元数据分为业务元数据、技术元数据和管理元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,管理元数据为两者的管理提供支撑。(1)业务元数据业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义务信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。
(2)技术元数据它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等;关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。
(3)管理元数据管理元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的数据。
2.数据标准
良好的数据标准体系有助于数据的共享、交互和应用,可以减少不同系统间数据转换的工作。数据标准适用于业务数据描述、信息管理及应用系统开发,包括基础标准和指标标准(或称应用标准)。可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。
(1)业务定义业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。
(2)技术定义技术定义是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。
(3)管理信息管理信息是指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。
3.数据质量
高质量的数据是进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。
4.数据集成
可对数据进行清洗、转换、整合、模型管理等处理工作。如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性,既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。
5.主数据
主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。要做的就是从各部门的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的管理,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据传送给企业内需要使用这些数据的操作型应用系统和分析型应用系统。
6.数据资产
汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
7.数据交换
用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
8.数据生命周期
任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。
9.数据安全
数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。
(1)数据存储安全包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。
(2)数据传输安全包括数据的加密和数据网络安全控制,主要通过专业加密软件厂商进行规范设计和安装。
(3)数据使用安全需要加强从业务系统层面进行控制,防范非授权访问和下载打印客户数据信息;部署客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;对于生产及研发测试过程中使用的各类敏感数据进行严密管理;严格与外单位合作中的个人客户信息安全管理等。
企业数据治理需要注意什么
数据治理是一个复杂的系统工程,涉及到企业和单位多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题,这时就要注意以下方面:
1.跨组织的沟通协调问题数据治理是一个组织的全局性项目,需要IT部门与业务部门的倾力合作和支持,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理。因此,数据治理项目需要得到组织高层的支持,在条件允许的情况下,成立以组织高层牵头的虚拟项目小组,会让数据治理项目事半功倍。
2.投资决策的困难组织的投资决策以能够产生可预期的建设成效为前提,但往往综合性的数据治理的成效并不能立马体现,它更像一个基础设施,是以支撑组织战略和长期发展为目标,所以,导致此类项目无法界定明确的边界和目标,从而难以作出明确的投资决策。
3.工作的持续推进数据治理是以支撑组织战略和长远发展为目标,应当不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一锤子买卖,应当建立长效的数据改进机制,并在有条件的情况下,尽量自建数据治理团队。
4.技术选型这几年随着大数据的发展,有针对传统数据库的,有针对大数据数据库的,再加上组织对自身数据资产情况没有一个清晰的认识,这也就导致了数据治理的技术选型困难。
数据被认为是当今时代企业的核心资产,具有很高的价值。然而,数据本身并没有什么价值,或者说数据本身不会自动产生价值。一般来说,数据价值变现的方式有两种:
一种是通过数据治理将数据资源转化为数据资产,再把数据资产链接到提供数据资产交易的平台上进行交易,让数据资产具有直接变现的能力;
二种是通过数据治理实现数据资产的汇集和预处理,在通过基于场景的算法将数据应用到业务中去,让数据产生洞察力,为管理和业务的创新提供支撑,让数据具备间接变现的能力。