从零开始学数据治理——第一课(开篇)
最近一直在思考几个问题:
- 数据治理到底该如何学?
- 先学理论还是先学技术?
- 如何衡量自己数据治理学习的好坏程度?
- 有没有一些考试可以验证自己的学习成果?
- 如果需要招聘一个数据治理的专业人员,除了证书还应该考察他的什么能力?
- 有哪些书籍是学习数据治理适合阅读的?
- 如果要学习数据治理理论,应该如何是怎样的学习路线?
- 如果要学习大数据技术,又应该是怎么的学习路线?
相信这些问题,也同样困扰困扰着大家,困扰着很多想入门数据治理的人员。
下面我也将从大数据技术、数据治理理论、数据治理实践三个方面来介绍。
本文为第一课(开篇)。在后续我也将按照自己积累的经验和学习群大家的讨论内容对后续的内容进行不断的整理。也感谢所有学习群群友的帮助,路漫漫,在数据治理的道路上让我们一起并肩前行。
本文共分为三个大的部分,在未来将按照如下的思维导图对各部分进行讲解,三个部分各自是由浅入深的顺序,但是各部分是相互交叉的,毕竟理论与实践应该相互结合。
当然此知识体系还在不断整理和完善,也欢迎大家加入进来,大家共同进步~
本文档版权属于公众号:大数据流动 所有。未经授权,请勿转载与商用!
一、大数据技术
首先强调的是,大数据和数据治理并不是一个东西。数据治理最早的概念在1988年就在麻省理工产生了。
而大数据缘起于Google引爆大数据时代的三篇论文,2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。从根本上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上。
2004年公布的 MapReduce论文,论文描述了大数据的分布式计算方式,主要思想是将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
Bigtable发布于2006年,启发了无数的NoSQL数据库。
随后大数据开始了一系列的颠覆活动。
从数据仓库,大数据平台,到数据中台。有些技术细节可以不了解,但是学习每一个组件到底做了什么事,大数据工程的整体运作流程,对于学习数据治理有着巨大的帮助。
因为在当今的企业中,大部分的数据相关工作已经基于大数据技术栈了,大数据已经逐渐成为基础设施。
大数据的学习可以按照思维导图中的大数据技术、大数据运维、数据分析与可视化三个方向去不断的学习与实战。
相对来说实战更为重要,在经过一个完整的项目历练之后就会大数据技术有一个完整的认识了。
二、数据治理理论
对于每一种理论的学习,都需要一个标准。
目前数据治理理论的学习公认的标准就是DAMA。
DAMA-DMBOK 功能框架标识出了11 个主要的数据管理知识领域:
1、数据治理(Data Governance)通过建立一个能够满足企业数据需求的决策体系,为数据管理提供指导和监督
2、数据架构(Data Architecture)定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计
数据建模和设计(Data Modeling and Design)以数据模型的精确形式,进行发现、分析、展示和沟通数据需求的过程
3、数据存储和操作(Data Storage and Operations)以数据价值最大化为目标,在整个数据生命周期中,从计划到销毁的各种操作活动
4、数据安全(Data Security)确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问
5、数据集成和互操作(Data Integration and Interoperability)包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程
6、文档和内容管理(Document and Content Management)用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档
7、参考数据和主数据(Reference and Master Data)包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用
8、数据仓库和商务智能(Data Warehousing and Business Intelligence)包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值
9、元数据(Metadata )包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)
10、数据质量(Data Quality)包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性
经过这样的拆分以后,学习起来就要容易很多了。
总体来说,数据治理的学习需要一些制度与规范,也需要一些实际的工作,而这些工作可以借助工具去不断的完善。
那么,理论一般都会有认证,数据治理的认证有什么呢?
数据治理专业人士认证是由DAMA国际数据管理协会颁发的数据治理和数字化转型专业人才能力认证,涵盖了学历教育、工作经验和专业知识考试在内的综合资格认证,是国内数据管理与数字化转型领域人才的权威性专业认证,也是目前全球数据管理方面权威性认证。获得CDMP/CDGA/CDGP认证,已成为职业晋级的核心能力和标志。
个人建议,如果是自身自制力够,还会自学为主,毕竟这个报名也需要一定的费用。
开始有一定的要求:
有一些机构会有一些培训,免费的课程,可以参考。
如果自制力够,还是不建议付费,以学习为主。
先看看免费的课程。
三、数据治理实践
光有理论是远远不够的,无异于纸上谈兵。
在这个实践工程中,我们一直在不断的积累。
元数据管理工具
数据治理工具
Atlas、Datahub、Griffin等等。
由于国内这方面起步较晚,我们也需要更主动的去学习,才可能在数据治理实践的领域更加的领先。
一个人的力量是有限的,也正是出于这个原因,我们建立了细分的学习群,人多力量才会更大。
也欢迎大家加入进来~
另外 数据治理工具箱 知识星球也已成立,这是一个数据治理落地实践方向的知识星球。大数据流动发布的数据治理相关文章与资料(包括付费内容)都将在知识星球进行长期同步。星球的目标是收集数据治理实践工具的相关资料,并定期组织实战学习小组,让数据治理的相关资料可以长久的保存,同时也解决文章被频繁抄袭的问题,欢迎大家加入。
最后提醒,文档版权为公众号 大数据流动 所有,请勿商用。相关技术问题以及安装包可以联系笔者独孤风加入相关技术交流群讨论获取
大数据与数据治理的学习之路才刚刚开始~
未完待续~