数据治理方案架构整理汇总
前言:最近对数据治理比较感兴趣,于是了解了当前各公司的数据治理解决方案和最佳实践(本文会持续更新)。资源均来自网上,感兴趣可以去看看原文。如果有侵权,请联系我删除。
1、为什么要数据治理
为什么要做数据治理?因为在数据产生、采集、加工、存储、应用到销毁的全过程中,每个环节都可能会引入各种质量、效率或安全相关的问题。在公司早期的发展阶段,这些数据问题对公司发展的影响并不是很大,公司对问题的容忍度相对也比较高。但是,随着业务的发展,公司在利用数据资产创造价值的同时,对数据质量和稳定性要求也有所提升。此外,当数据积累得越来越多,公司对数据精细化运营程度的要求也随之提高,会逐渐发现有很多问题需要治理。
2、需要治理那些问题
数据治理是一项需要长期被关注的复杂工程,这项工程通过建立一个满足企业需求的数据决策体系,在数据资产管理过程中行使权力、管控和决策等活动,并涉及到组织、流程、管理制度和技术体系等多个方面。一般而言,数据治理的治理内容主要包括下面几个部分:
a. 标准问题:当公司业务部门比较多的时候,各业务部门、开发团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。
b. 质量问题:这是最重要的问题,很多公司的数据部门启动数据治理的大背景就是数据质量存在问题,比如数仓的及时性、准确性、规范性,以及数据应用指标的逻辑一致性问题等。
c. 效率问题:在数据开发和数据管理过程中都会遇到一些影响效率的问题,包括数据研发效率,数据使用效率,很多时候是靠“盲目”地堆人力在做。
d. 成本问题:互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础设施上的成本投入占比非常高,而且随着数据量的增加,成本也将继续攀升。
e. 安全问题:业务部门特别关注用户数据,一旦泄露,对业务的影响非常之大,甚至能左右整个业务的生死。
3、数据治理地图
关注“字节跳动数据平台”微信公众号领取高清版《数据治理知识地图专业版 V1》4、数据治理架构体系
当然业内,已经有很多数据治理方案,并且一些公司已经形成了成体系的产品和架构,下面一起看看各公司的数据治理架构体系。
阿里DataWorks
DataWorks是阿里的大数据治理平台。DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。
产品官方介绍:大数据开发治理平台DataWorks
治理经验分享:2万字揭秘阿里巴巴数据治理平台建设经验
字节DataLeap
图片来源:火山引擎:得到基于火山引擎的数据治理实践
美团治理框架
内容来源:业务数据治理体系化思考与实践
管理层:立法,制定相关的组织保障流程规范、职责设计、奖惩措施,指导和保障数据治理顺利进行,这是数据治理能够成功启动运转的关键因素。
标准层:设标准,制定各类研发标准规范、解决方案标准SOP等数据治理过程中需要的各类技术规范和解决方案,这是所有技术问题正确与否的重要依据,也是治理中事前解决方案必不可少的一部分。完善的标准规范和良好的落地效果,可很好地降低数据故障问题的发生量。
能力层:完善能力,主要是基于元数据的问题度量的数字化能力,以及问题工具化检测和解决的系统化能力。数字化和系统化能力是数据治理实施的科学性、实施的质量及效率的重要保障。
执行层:设定动作,结合要达成的具体目标,对各治理域问题,按照事前约束、事中监控、事后治理的思路进行解决。目标的达成,需要拆分到7大治理域相关的具体问题中去落地。因此,一个治理目标的达成,很依赖治理域对问题描述的全面性及深度。
评价层:给出评价,基于指标的问题监控,健康度评价体系,专项评估报告,评价治理收益及效果,这是实施治理推进过程监控,结果检验的重要抓手。
愿景:长期治理目标,指导数据管治有方向地不断朝着最终目标前进。
华为数据治理框架
华为的数据治理中心名为DataArts Studio。它是针对企业数字化运营诉求提供的数据全生命周期管理、具有智能数据管理能力的一站式治理运营平台。包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
- 平台官方地址:DataArts Studio
- 华为数据治理方法论及最佳实践:华为数据治理方法论
5、数据生产规范性治理
缺少统一的规范,往往是数据混乱的根源。因此,数仓规范性建设非常重要。
规范治理思路
数据规范治理包括:
1. 制定规范,包括数据模型规范、数仓公共开发规范、数仓命名规范,库表规范等。
2. 规范落地,制定了规范,要有对应的机制以及工具保证规范能够落地,不能空有规范,却不执行。
业界治理方案
关于数据规范性的治理,业内公司已经有一些比较好的实践,下面我们一起看看。
阿里规范性治理
以下图片来源:2万字揭秘阿里巴巴数据治理平台建设经验
美团规范性建设
以下内容来源:美团业务数据治理体系化思考和实践
规范建设
规范是数据治理建章立制的基础,针对标准规范建设不合理及流程规范缺失的问题,美团用体系化的建设思路从整体架构上对数据开发流程及数据治理流程进行划分,并针对全流程数据管治各个环节建设相应规范:
1、数据治理管理规范:明确数据治理组织职责以及人员构成,确定数据治理实施流程及治理问题运维流程,以保障数据治理过程顺利进行。
2、数据研发规范:明确数据开发各个环节需要遵守的规范要求,从问题产生的源头,通过建设完善的研发规范,指导研发工作按标准进行,一定程度上可减少问题发生。
3、数据标准化治理SOP:明确各个治理问题治理动作,确保治理动作是标准且可实施。
4、数据健康度评估规范:明确治理效果的评价标准,对数据体系做到长期,稳定及指标化的衡量。
规范落地
在标准规范的共享方面,以往技术团队在实际规范落地过程中可能存在以下问题:
1、规范找不着:重要规范文档散落在各个Wiki空间,导致使用时无法快速查找,效率低下。
2、规范质量差:文档没有统一进行维护,无法持续进行迭代和完善,不能随着业务及技术的发展更新。
3、规范没权限:文档散落在各个成员的私人空间内部,未对所有人开通权限,优质内容无法及时共享。
针对上述问题,我们重新收集整理已有规范文档并进行分类,补充缺失文档,优化文档内容,并新增知识中心模块,将知识体系框架产品化,在产品层面维护统一的入口及权限管理,同时严格控制发布流程,解决了标准规范在实际落地时“找不着”、“质量差”、“没权限”等问题。
将数据治理标准化SOP的各个执行步骤通过工具落地,实现在一个工具内一站式治理能力,约束工程师的治理动作,确保整个治理过程是标准的,效果是可监控的,从而提升了治理效率及治理质量。
6、数据资产管理
元数据建设
为了解决数据使用效率问题,应该建设元数据,元数据解决的问题为:
有什么数据 - 数据是什么 - 来自何处 - 如何流转 - 谁可以访问
元数据分类
业务元数据:描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等。(从业务角度描述的)
技术元数据:描述数据系统中技术领域相关的概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换加工过程的描述等。
管理元数据:描述数据系统中管理领域相关概念、关系、规则的数据;主要包括人员角色、岗位职责、管理流程等信息。
业界管理方案
腾讯数据资产管理建设
本节内容来源:腾讯数据治理实践
美团数据资产管理建设
本节内容来源:美团业务数据治理体系化思考个实践
资产全景从管理者+数据RD视角出发,介绍了当前数据现状即有什么的问题,帮助业务线管理者及数据RD实现数据资产可视化,为管理者提供技术管理的抓手,为数据RD提升数据探查和数据使用效率。包含资产大盘、资产目录、个人资产三个子模块:
资产大盘:从业务线管理者视角出发,展示了业务线内各类资产概览,帮助管理者一站式快速了解组内数据资产,无需跳转多个平台。
资产目录:展示团队数据各资产类型及明细,为数据RD数据使用提供信息支撑,提升RD数据探查效率。
个人资产:从归属人视角,展示数据RD个人及小组名下数据资产数量和资产类型及数据明细,详细描述个人资产信息。
美团元数据建设如下:
7、数据质量治理
确定数据期望
数据质量是由需求定义的。它没有绝对的对与错,只有定性、定量的标准。我们需要事先了解需求方的质量期望,才能与需求方就「质量达标」的标准达成细节上的共识。
定义质量度量
常见度量指标分类:
规则类型 | 规则说明 | 规则指标 |
---|---|---|
完整性 | 数据在上报和传输过程中是否完好 | 传输丢失率、传输重复率 |
唯一性 | 当数据有业务上的唯一健时,真实唯一 | 唯一健冲突率 |
准确性 | 数据生成与触发机制符合定义,属性的填值符合业务逻辑 | 准确率 |
一致性 | 业务对象不同属性间的逻辑一致;业务过程量级波动一致 | 跨表和值对比、波动一致对比等 |
及时性 | 生成时间,延迟性 | 到达延迟、日期漂移等 |
指标与质量提炼:
质量期望描述 | 质量问题影响 | 监控指标规则 |
---|---|---|
不可大量为空 | 影响XX使用 | 空值率<阈值 |
xxx | xxx | xxx |
xxx | xxx | xxx |
落实质量保障
业界治理方案
阿里数据质量治理
以下图片来源:2万字揭秘阿里巴巴数据治理平台建设经验
- 事前:在研发过程中保障代码质量,提前规避质量问题,通过代码检测、质量自测的能力让研发可以提前消灭问题;
2. 事中:让测试更有效地进行质量测试,提供上线前的冒烟测试、对比测试,从之前仅完成基础功能验证的测试,完善拓展其测试维度,不断积累围绕业务承诺要求的规则,从而让研发和运维都能够进行快速地自动化测试,持续进行数据链路的部署更新
3. 事后:数据质量检测任务直接关联调度任务产出。做到数据即产出即检查,当高保障数据任务运行时,上游数据出现脏数据时,能及时阻断任务,规避质量问题数据对下游的影响,并通过告警机制及时提醒用户进行任务处理。
华为数据质量治理
美团数据质量治理
建设质量评价指标:
划分数据等级:
8、数据应用提效治理
数据使用困境
数据应用提效,指的使用数据的效率,大数据场景下常常存在两个问题:
1、找数难问题,想使用一个数据,怎么找找不到,影响业务开发;
2、找数慢问题,想使用一个数据,找很久才找到,影响使用体验;
业界治理方案
阿里数据应用提效治理
以下图片来源:2万字揭秘阿里巴巴数据治理平台建设经验
9、数据安全管控治理
安全治理思路
其中数据分级,可以看这篇文章:数据安全治理:数据的分类分级指南
关于数据安全管控的具体手段,可以看这篇文章:数据治理系列:数据安全治理之道
定期考核培训
业界治理方案
阿里数据安全管控治理
以下图片来源:2万字揭秘阿里巴巴数据治理平台建设经验
腾讯数据安全管控治理
10、数据降本增效治理
成本治理思路
- 表治理:治理僵尸表,低价值表;
- 任务治理:治理僵尸任务,下线无效任务;
- 存储治理:对数据进行分级存储,降低存储成本;
- 性能治理:优化任务性能,合理分配资源
业界治理方案
阿里治理方案
以下图片来源:2万字揭秘阿里巴巴数据治理平台建设经验
11、数据治理组织架构
对于数据治理来说,人与技术同样重要。数据治理需要一个紧密、完善的组织不断去计划、实施、优化数据治理的工作。
组织指责
- 不断持续迭代企业级治理规范:如,阿里巴巴数据资产治理规范,随着业务的诉求和实际积累经验不断修订与迭代;
2. 定期确定企业级和业务级的治理目标,确认年度/季度的总体目标和分拆目标,建立使用资产健康分作为集团统一普查衡量标准,进行短期和长期的标准评估方式,统一各方认知,降低沟通消耗。
3. 不断配合治理目标达成的同时,也需要降低数据治理的成本,配套确认长期性、常态化的策略、工具、文化的建设内容和配合方式。
业界治理组织架构
阿里数据治理组织建设
以下图片来源:2万字揭秘阿里巴巴数据治理平台建设经验
华为数据治理组织建设
在战略层面,由数据治理Sponsor和各部门负责人组成的数据治理领导组制定数据治理的战略方向,以构建数据文化和氛围为纲,整体负责数据治理工作的开展、政策的推广和执行,并作为数据治理问题的最终决策组织解决争议,监控和监督数据治理工作的绩效,并确保数据治理工作预算支持。数据治理委员会和各领域数据治理工作组是数据治理战略在运作层面具体的实施团队。领域数据治理工作组由数据Owner、数据代表、数据管家、数据专员和数据架构师组成。详细的指责介绍,可以看看原文:华为数据治理方法论
后记
给读完本文的同学你点赞,如果觉得对你有用,不妨给本文也点个赞呗!
参考文档
1、数据治理方案