企业数据治理落地和同行面试基础

数据治理概况

**本人博客网站 **IT小神 www.itxiaoshen.com

数据治理背景

​ 企业数据治理现状普遍存在缺乏统一的数据视图、安全的数据环境、数据价值管理体系,同时也容易形成数据孤岛,出现数据质量低下常见现象;数据治理不是一蹴而就的而是一项繁杂、长期需要工匠精神和锲而不舍的工作,没有一针顶破天的诀窍,也没有立竿见影的途径。只有将数据治理变成一种常态化机制,形成一种习惯、一种文化、持之以恒、不忘初心、不懈努力,才能达到预期目标。

​ 广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。数据治理专注于将数据作为企业数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为企业或组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。数据治理的发展是伴随着不同行业对数据资源资产化、数据确权与合规、数据价值创造与共享、隐私保护的认识、研究和实践的一个演进过程,目前,随着数据治理理论体系的逐步完善,技术方法和工具的日趋成熟,数据治理被越来越多的企业学习了解和实际应用。

​ 依据国家关于加强数字化改革对数据开发利用数字化转型的企业推进落实数据治理;数据治理正在逐步形成为业界的共识,数据治理涵盖数据发现可用、数据及时稳定产出、数据质量保障、数据安全合规、数据生产的经济性,根据所处在数据治理的阶段不同,数据治理关注的核心需求也存在差异,数据治理管理过程最简单最通俗的就是利用组织、制度、流程和工具将信安系统的数据转换为有用的信息的过程。

数据治理目标

​ 首先要清楚不是为了数据治理而进行数据治理,分别从数据治理业务目标和管理目标来赋能的企业价值。

​ 数据治理的业务目标在保障数据安全的前提下,明确数据指标和数据应用,依托于企业数据治理可以为企业的应用决策提供全方位的支撑,实现业务赋能以及提升企业数据的价值。

​ 数据治理的管理目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性,有效性),确保数据的安全性(保密性、完整性及可用性),提供安全保障,满足风险控制和国家监管机构的监管要求,实现数据资源在企业系统的共享,推进数据资源的整合、服务和共享,从而企业系统的信息化管理水平,为充分发挥数据资产核心价值提供强有力的基础支撑。

明确企业数据治理范围

​ 企业围绕着自身数据不仅限于内部管理数据、业务数据、用户数据、研发技术和专利数据等开展数据治理工作,可通过企业数据调研入手。

数据治理落地实施和同行面试基础

数据治理整体流程

​ 数据治理框架从原则、范围、实施与评估并层层深入层层展开;通过数据治理实施技术工具,可以让数据质量变得更好,发掘数据资产的商业价值,数据治理是一个管理体系构建过程,分别从组织、制度、流程、工具四个维度协调展开。

image-20211114123540874

image-20211114123923613

image-20211114123943677

组织维度建设

​ 建立合适的数据治理组织是企业数据治理的关键。数据治理的组织建设一般包括组织架构设计、部门职责、人员编制、岗位职责及能力要求、绩效管理等内容。数据治理是一项需要企业通力协作的工作,而有效的组织架构是企业数据治理能够成功的有力保障。为达到数据战略目标,非常有必要建立体系化的组织架构,明确职责分工,建立数据组织是保障数据治理能够长期有效的重要手段之一,数据组织都是可以跨职责的,组织的职能和分类如下:

  • 数据治理委员会,在公司内部拥有数据的最高决策权,代表了企业的高层视角。
  • 数据管理指导委员会,为数据委员会提供支持,针对一些具体数据管理措施起草相关政策和标准,提供委员会评审和批准。
  • 数据管理制度团队,在某个业务领域内,协助完成数据制度管理的数据管理专员小组,数据管理制度团队来着不同的部门和跨业务领域的数据专家。

image-20211114124539490

image-20211114124619895

制度维度建设

​ 企业的数据治理必须要有相关制度,否则无法可依,再好的技术工具也没有用。因此建立完善的数据治理制度很重要。

​ 保障组织架构正常运转和数据治理各项工作的有序实施,需要建立一套涵盖不同管理粒度、不同适用对象,异覆盖数据治理过程的管理制度体系,从“法律”层面保障数据治理工作有据、可行、可控。数据治理制度框架分为政策、制度、细则、手册4个梯次,企业的数据治理制度通常根据企业的IT制度的总体框架和指导原则制定,通常包含数据质量管理、数据标准管理、数据安全管理、数据绩效管理等制度,以及元数据管理、主数据管理、交易数据管理、数据指标管理等办法及若干指导手册。

image-20211114124826814

流程维度建设

​ 制定数据治理的流程框架也是数据治理的重要工作;广义上讲,数据治理流程是对数据的全生命周期进行管理,包含数据采集、存储、处理、使用、共享、销毁等,同时还包含数据资产目录、元数据管理、主数据管理、数据指标管理、数据标准、数据质量、数据安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动所遵循的活动步骤进行治理。

image-20211114124954445

image-20211114125031063

工具维度建设

功能架构

​ 数据治理需要多种数据治理工具软件的支撑,提供数据采集、治理、建模、分析,应用,使数据对内优化管理赋能业务,对外可以数据合作价值释放,成为企业数据资产管理和服务中枢。数据治理工作从辅助数据接入整合能力、数据共享应用能力、数据综合管理能力、基础组件支撑能力四方面全面建设数据能力和培育能力体系,实现数据接入、存储计算、数据分析、数据服务、数据资产管理、运营管理等功能,以多类型大数据量的汇聚为基础,以统一模型为标准,为前端应用提供灵活的统一数据服务。数据治理需要多种数据治理工具软件的支撑,包括以主数据为核心的必要软件、以数据资产目录为核心的数据资源管理工具、以元数据和数据模型为核心的数据中台,此外还有时序数据、数据交换等。这些工具互有侧重,需要根据实际需求予以剪裁。

​ “无治理、不分析”,没有高质量的数据,就不会有可信的AI。数据治理是人工智能基础,能够为人工智能提供高质量的数据输入。而人工智能是一种技术,它不仅仅是在数据应用端产生作用,在数据的管理端同样需要人工智能,有了人工智能加持,数据治理将变得更加高效和智能,结合人工智能技术在数据采集、数据建模、元数据管理、主数据管理、数据标准、数据质量及数据安全等领域提供更为深入高效的应用。

​ 数据治理平台用于落实数据管理体系,实现数据管理自动化,提高数据管理效率,确保数据质量、实现安全数据共享,数据治理工具总体功能架构包含工作流管理、数据架构工具、数据发现、数据标准管理、数据模型管理、数据指标管理工具、主数据管理、元数据管理、数据质量管理、数据地图、数据血缘、数据安全、数据共享与发布、数据生命周期。

image-20211114130602121

工作流管理

  • 提供数据批量全量采集、批量增量采集、实时采集功能。
  • 提供数据流式加工处理、批量加工处理功能。
  • 提供数据加工项目管理、加工任务调度、任务监控、任务运维、告警通知等功能。

数据发现

通过部署数据发现系统,支持串接和旁路的流量网络监测发现梳理企业数据分布,包括以下内容:

  • 结构化数据发现:数据库内容进行表单的自动发现。
  • 半结构化和非结构化数据发现:文件系统的半结构化和非结构化数据自动发现。

数据标准管理

​ 整理业务规则,统一数据定义;提供标准模型及数据标准的创建、发布、修改、应用、注销、查询等功能。

​ 建立规范的数据标准,消除跨系统的非一致性问题,包括标准定义、标准查询、标准发布等功能,数据标准是实现数据标准化、规范化的前提,是保证数据质量的必要条件。数据标准一般分为元数据标准、主数据标准、交易数据标准、数据指标标准、数据分类标准、数据编码标准、数据集成标准等内容。数据标准管理是规范数据标准的内容、程序和方法的活动,分为标准制定、标准实施和控制、标准修订等。

​ 数据标准建设提供全面完整的数据标准管理流程及办法,用于决定和建立单一、准确、权威的事实来源,实现台数据的完整性、有效性、一致性、规范性、准确性、开放性和共享性管理,并为数据质量检查、数据安全管理提供标准依据。预置数据标准的规则。

  • 标准管理功能要求如下:
    • 维度统一:包括维度名称,别名,描述,数据类型,呈现格式等标准。
    • 度量统一:包括度量名称,别名,描述,数据类型,呈现格式等标准。
    • 指标统一:包括指标名称,别名,描述,数据类型,呈现格式等标准。
    • 逻辑表统一:包括逻辑表的表名称,别名,描述及表字段名称,别名,业务含义的定义标准规范。
    • 物理表统一:包括物理表的表名称,别名,描述及表字段的数据类型,数据长度,业务含义的定义标准规范。
  • 数据标准管理工具
    • 标准生成:支持按照业务领域、业务主题、信息分类、信息项等生成标准细则;
    • 标准映射:支持将制定的标准与实际数据进行关联映射,即实现数据标准的落地执行,维护标准与元数据之间的落地映射关系,包括元数据与数据标准的映射、元数据与数据质量的映射,以及数据标准和数据质量的映射,能提供在线的手工映射配置功能,并能对映射结果做页面展示;
    • 映射查询:具备查询标准项与元数据之间的落地情况,并提供下载功能;
    • 维护标准:具备对标准状态进行管理;
    • 标准导出:具备按照当前系统中发布的最新标准或者选择版本来下载标准信息;

数据模型管理

确认影响业务的关键数据指标,完整表达业务主体的数据相关性,良好的规则模型管理是企业数据资产管理成功的重要因素。

主数据管理

  • 提供主数据创建、发布、分发、变更、注销等管理功能。

  • 通过规范主数据获取、管理与应用,最优化管理和使用企业黄金数据。主数据申请、主数据发布、主数据分发等功能。

  • 主数据治理平台是企业数据规划、数据标准落地的载体,实现数据治理统一标准、统一规则的支撑;主数据治理平台是有效实施主数据、元数据、数据指标管理,提供规范统一的主数据服务的平台;主数据治理平台是实现数据从产生到应用,分层协同、全面治理的核心。主数据管理对需要共享的数据建立统一视图和集中管理,为各业务系统数据调用提供黄金数据。

  • 主数据管理工具是主数据全生命周期管理的平台,也是主数据标准、运维体系落地的重要保障。从主数据标准管理、主数据代码管理、主数据清洗校验、主数据生命周期管理、主数据质量管理、主数据应用评价、主数据全景图,主数据应用需求管理、业务需求等。

元数据管理

  • 提供元模型的创建、发布、修改、删除、查询等管理功能以及元数据同步、导入、导出、修改、发布、删除、查询等管理功能。

  • 自动采集元数据,生成数据影响力分析、血缘图谱和全链路分析,为数据管理提供关键驱动力。包括元数据采集、血缘分析、影响分析等功能。

  • 元数据管理内置丰富的采集适配器,端到端的自动化采集,一键元数据分析,快速理清数据资源,了解数据来龙去脉,构建数据地图,为数据标准建设和数据质量提供基础支撑。

    • 技术元数据:库表结构、字段约束、数据模型、ETL程序、SQL程序等。
    • 业务元数据:业务指标、业务代码、业务术语等。
    • 管理元数据:数据所有者、数据质量定责、数据安全等级等。

数据质量管理

  • 提供数据质量规则管理、数据稽核任务管理和数据质量报告管理等功能。
  • 获得干净、结构清晰的数据,提升数据价值含量。包括质量规则定义、质量检查、质量报告等功能,数据质量是指数据的适用性,描述数据对业务和管理的满意度。数据质量主要指数据的准确性、及时性、完整性、唯一性、一致性,有效性六个方面。数据质量管理是对数据的分析、监控、评估和改进的过程。包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性,提高数据对业务和管理的满足度。重点关注数据质量需求、数据质量检查、数据质量分析和数据质量提升的实现能力。
  • 数据质量管理以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。
  • 针对数据接入、存储、共享、维护、分发共享、消亡等整个生命周期的每个阶段里可能引发的各类数据质量问题,具备识别、度量、监控、预警等一系列管理功能,使得数据质量获得进一步提高。

数据安全管理

  • 数据安全管理不仅限于数据分类分级、基于RABC属性级别的数据权限管理、敏感数据保护、合规要求,对数据分类分级进行自动化识别。

    • 针对结构化数据:能够根据输入的数据识别判断规则配置,对数据进行自动化分类,根据国家、地方、行业积累分级规则和依据初步定级。
    • 针对非结构化数据:能够根据输入的规则配置快速识别系统数据、用户数据、业务数据、应用数据,对数据进行自动化分类,根据国家、地方、行业积累分级规则和依据初步定级。
  • 从国家的法规来评估系统的安全风险,从而制定相应制度和策略;从技术层面上讲,保证数据在采集、传输、存储的安全性,比如在传输过程中使用SSL协议加密或者在数据存储过程中使用了相应的访问控制策略等等;应用层面上,我们需要对访问的数据加以控制,比如可以设计基于RBAC的访问控制模型,那资源就只能被拥有某个权限的角色对应的用户才能访问;整个安全上我们希望通过制度、流程、手段、工具、产品的方式做到“事前可管、事中可控、事后可查"。

  • 通过感知危险、防范泄露、管理权限、数据容灾,确保数据资产的安全性。数据安全管理是为了确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问。通过采用各种技术和管理措施,保证数据的机密性、完整性和可用性。数据安全体系框架通过3个维度构建而成,包括政策法规、技术层面和安全组织人员。数据安全治理体系框架在符合政策法规及标准规范的同时,需要在技术上实现对数据的实时监管,并配合经过规范培训的安全组织人员,构成了数据安全治理整体架构的建设。数据安全治理能力建设并非单一产品或平台的构建,而是建设一个覆盖数据全部生命周期和使用场景的数据安全体系,需要从决策到技术,从制度到工具,从组织架构到安全技术通盘考虑。

  • 数据安全管理贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、模糊化处理、数据库授权监控等多种数据安全管理措施,全方位保障数据的安全运作。

数据资产地图

  • 数据资产地图可以明确知道有哪些数据资产、数据资产分布在哪、数据资产的质量情况、数据资产的使用情况等。
  • 有效构建并管理整体数据资产内容,快速查询不同数据存储位置、数据类别、数据级别,并能快速进行搜索展示。
  • 提供事实表、维度表、汇总表等数据模型创建、指标设计、指标洞察分析等功能;提供数据可视化设计开发功能;有效构建并管理整体数据资产内容,快速查询不同数据存储位置、数据类别、数据级别,并能快速进行搜索展示。
  • 数据资产地图可以帮助我们更好的支撑各种数据的应用,丰富的服务接口拓展,支撑数据资产的多渠道应用,如数据共享、决策支持等,最终实现数据资产价值最大化。
  • 通过对元数据的加工,可以形成数据资产地图等应用。数据资产地图一般用于在宏观层面组织信息,以全局视角对信息进行归并、整理,展现数据量、数据变化情况、数据存储情况、整体数据质量等信息,为数据管理部门和决策者提供参考。

数据血缘

​ 提供数据血缘分析、数据血缘展示、数据血缘查询等功能。

数据应用

  • 建立数据仓库包括关系型数据库数仓和分布式数仓。
  • 建立计算引擎包括离线计算和流计算两部分组成,计算引擎是共享层平台提供的基础数据处理分析能力。
  • 数据预处理完成导入的源数据数据校验、清洗和脱敏的过程,解决重复,不完整、错误和噪声的源数据问题,通过改进数据的质量,提高后续数据分析的效率、精度和性能。
  • 建模分析通过数据处理分析,实现对导入的数据进行预处理和建模分析等功能,具备输出通用数据计算结果和基础模型展现等功能。
  • 数据治理应用行业如金融、医疗、政务、运营商、

数据共享交换

  • 提供数据发布接口设计、数据共享交换功能。
  • 数据交换服务将若干个业务子系统之间进行数据或者文字的传输和共享,提高信息资源的利用率,集数据采集、处理分发、交换传输于一体,轻松玩转企业级数据交换作业。
  • 数据共享平台如支持通过文件接口、查询接口等方式,共享数据给各应用系统。

数据价值管理

​ 数据价值可以围绕成本和应用价值两方面来展开,强调数据生产经济性比如成本包括了你采集、存储、传输、运维方面的成本,这是可以计算出来,而它的价值方面可以通过他使用的分类、频次、对象和产生的收益效果来评估。

全生命周期管理

  • 提供数据生命周期管理、数据下线、数据销毁、任务管理等功能。
  • 数据生命周期记录数据从创建和初始存储,到它过时被删除的整个流动过程,对数据进行近线归档、离线归档、销毁和全生命周期监控。
  • 包括数据归档、数据销毁等功能,搭建云数智一体化数据平台,满足前台应用准确性、快速性和多样性的数据需求,缩短研发周期、降低技术成本,将数据中心逐步由成本中心向资产中心转变,提升数据价值,实现五个打通:
    • 横向打通:破除部门壁垒,打通专业。横向跨专业间的分析挖掘融通;
    • 纵向打通:内部多层级数据打通,形成统一资源目录。上下级数据共享交换;
    • 内外打通:消除内外数据的鸿沟,实现内外部数据的关联分析;
    • 管理打通:建立企业标准,实现统一管理统计口径;
    • 服务打通:数据中台统一对外提供数据服务和应用构建,与业务系统和数据应用充分协同。
  • 面向数据全生命周期,提供的一站式数据规划、集成、开发、治理、服务、应用等产品。数据平台能力框架:5个维度(采、聚、理、用、保),7个功能层次。
posted @ 2021-11-14 14:08  itxiaoshen  阅读(893)  评论(0编辑  收藏  举报