一文读懂数据平台、大数据平台、数据中台(知乎转载)
造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词、新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏、各有趣味。近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑……
正如我们清楚的知道企业要进行数字化驱动架构之前,必须要建立统一的数据标准和规范,用统一的、大家都了解的语言描述一件事情是多么重要。同样的道理,在理解“大数据”“数据中台”相关知识之前,我们有必要先将常遇到的包括数据仓库、数据集市、数仓湖、大数据平台、数据中台等概念一次性说清,以便在今后的学习与建设中能够清楚的区别开来。
在回答上述问题之前,我们先来看看数据中台应该怎么理解?阿里认为数据中台其三项核心能力分别为:OneModel 负责统一数据构建及管理,OneID 负责将核心商业要素资产化,OneService 负责向上提供统一的数据服务。
智领云认为,数据中台的核心能力是数据能力的抽象、共享与复用,两者对数据中台的定义看似差异巨大,但仔细分析,阿里所定义的数据中台的核心能力正是智领云所定义的数据中台的结果。换言之,“抽象”是为了达成“OneModel”、“共享”则是为了“OneID”、“复用”才能让“OneService”更有意义。
数字化运营不同阶段,运营手段各尽所能
随着大数据技术的不断更新与迭代,数据管理工具得到了飞速的发展,从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台,其实将它们比喻成一场“数据的旅程”就不难理解在数字化运营的不同阶段,各运营手段并不一定是谁替代了谁,准确的讲,它们都有自己的功能、特点所在,技术之间的互补,每个手段都各尽所能的为自己的用例服务。下面我们就来简明扼要的归纳一下数字化运营不同阶段中各运营手段的功能与亮点。
1、数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
2、数据仓库:数据仓库系统的主要应用是 OLAP,支持复杂的数据分析,侧重决策支持,并且提供直观易懂的查询结果,可做到业务的历史快照,总结性数据以及高纬度分析。
3、数据集市:可以理解为是一种"小型数据仓库",只包含单个主题,且关注范围也非全局,数据从企业范围的数据库、数据仓库中抽取出来,迎合专业用户群体的特殊需求,其面向部门级业务或某一个特定的主题,良好地解决了灵活性和性能之间的矛盾。
4、数据湖:存储企业各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输,主要解决的是“看见数据”的问题,作为全局数据汇总及处理的一个核心功能,数据湖在数据中台建设中必不可少,除了为数据仓库提供原始数据之外,数据湖也可以直接为上层的数据应用提供服务。
5、大数据平台:个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,使用大数据平台,企业可以比竞争对手更快地作出数据驱动的决策,更快地推出适应客户需求的产品。
6、数据中台:我们知道所有关于数据工具的建设,其目的都是为了从数据中提取价值来支持更有效的数据运营,那么不能指导实际行动,创造实际价值的数据以及从数据中产生的知识是无用的,那花大价钱来做这个系统也没有必要。
说到底,数据工具的建设还是要以 ROI(Return On Investment)来支持,数据中台概念的出现,很大程度上是原来的大数据系统建设的 ROI 不如人意,企业投入了大量的物力、财力和人力建设了大数据平台,却发现并没有给企业带来应用的价值,大数据平台更多的沦为“形象工程“,甚至产生了新的数据孤岛,更不用说实现数据能力的全局抽象、复用和共享了,而数据中台可以说是为此类大数据平台了个“补丁”,其全局的数据仓库、大数据协调共享等能力,真正解决了重复开发、数据标准不统一、数据孤岛等问题,从而提高了数据价值实现效率和 ROI。
常见混淆概念梳理:传统大数据平台、硅谷大数据平台、数据中台
其实,数字化运营不同阶段的运营手段相对来说是比较好理解的,但是我们常常能听到一些字面意思相近的概念,尤其是当我们了解到原来在美国硅谷“中台”其实早已有之,只不过这种方法论在被引入到国内之后,被冠以“中台”之名时混淆的概念常常让我们不知所措。
那么,在硅谷所谓的“中台”叫什么?国外的大数据平台与国内的大数据平台又有什么区别?接下来就让我们统一相关概念并梳理其关系,一次性说清让大家一目了然。
1、大数据平台 1.0
大数据平台 1.0 = 传统大数据平台 。
大数据平台 1.0 时期,其实就是我们通常所看到的国内“传统大数据平台”的概念,此时的大数据平台是以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析,机器学习程序等 ETL 流水线,以及包括数据治理系统、数据仓库系统、数据可视化系统等核心功能。
但是在大数据平台 1.0 时期,硬件投资与软件开发投入量巨大,极大增加了研发的难度、调试部署的周期、运维的复杂度,且经常由于架构的缺陷,数据应用开发运维的困难,多租户资源隔离的复杂度等原因造成数据孤岛、应用孤岛的问题。
2、大数据平台 2.0
大数据平台 2.0 = 新一代大数据平台=大数据平台1.0+数据中台的功能+数据运营的功能。
大数据平台 2.0 时期充分诠释了硅谷“中台”早已有之的说法,但为什么硅谷没有“数据中台”概念?原因是硅谷公司从起步开始,管理层就将打造数据驱动需要的基础架构作为必须的功课之一,公司内部都有一个 Data Platform(数据平台)部门负责建设公司的数据平台,其大数据平台建设绝大多数是需求驱动,且后续发展都是由这个大数据平台能产生多少价值来决定的。
也就是说,在硅谷大家其实也并没有刻意的去打造什么中台,但是“避免重复造轮子”“快速迭代”“数据驱动”“业务驱动”是硅谷工程师文化的一些核心概念,也是硅谷高效创新的一个核心,大部分公司在起始架构设计时,就将“数据中台”所包括的数据抽象、复用与共享的能力,以及一些数据运营的功能设计在内了,其建设目的是一样的,所以没有必要在概念上过度纠结。
3、数据中台
数据中台建设的目标可简单归纳为通过提供工具、流程和方法论,实现数据能力的抽象、复用和共享,赋能业务部门,提高实现数据价值的效率。阿里提出数据中台的概念,只是为了强调和国内现有的大数据平台加以区别,强调解决数据孤岛、重复开发的问题,突出数据共享和复用的概念。
深入探究:数据中台与 Ta 的关系
想必现在你已经从傻傻分不清的状态中走出来,接下来,我们再深入具体地了解下数据中台与之相对应的关系,看看你是不是已经游刃有余的掌握了相关概念呢?
1. 数据中台与传统数据仓库、数据集市、数据湖的关系
数据仓库与数据集市的出现,就是为了解决信息化阶段 OLTP(联机事务处理过程)在分析场景下的局限性,它们将 OLTP 中的数据采集过来,做成面向历史、主题、分析的一些数据集,从而可以轻松地做出 OLTP 难以做出的分析。
但是,随着互联网时代的到来,数据仓库的数据来源只在业务系统功能中,提供一些汇聚的业务信息,无法提供个性化的信息以及一些非传统业务数据源的信息。另外,一些非传统业务数据源的信息一般存储在服务器日志中,那么大量且无效的数据如果都存储到数据仓库中,其效率之低和限制是无法想象的。
此时,数据湖和大数据平台的出现改变了上述局面,在这个阶段的数据仓库和数据集市,则基于大数据技术取得了进化,也就是说数据仓库不能解决的问题,我们用大数据数仓(基于大数据技术实现的数据仓库)来解决,大数据数仓解决不了的,我们用大数据平台来解决,大数据平台解决不了的问题,就需要数据中台来解决。
应该说数据中台是建立在数据仓库和数据平台之上的,让业务部门可以更好,更有效率的使用数据的运营管理层,并强调从工具和机制上支持对数据能力的抽象、共享和复用。
2. 数据中台与大数据平台 1.0、2.0 的关系
很多人会疑惑大数据平台 1.0 与数据中台的差别在哪里呢?其实,两者的建设目的都是发掘数据价值,高效实现数字化运营,区别则在于数据中台是具备业务属性的,输入的是原始数据,输出的是业务部门可以直接使用的数据能力。如果必须要将数据中台和大数据平台 1.0 区分开来,可以说数据中台是建立在大数据平台 1.0 的基础层之上,强调提供相应的工具和机制来实现数据能力的全局抽象、共享和复用。
在国内,为什么很多企业面临着数据孤岛与应用孤岛的困局?而在硅谷,大多数企业并没有数据孤岛、应用孤岛的烦恼?因为硅谷每个公司在建设大数据平台的时候,大数据平台的运营效率和使用效率,都是必须要考虑的关键问题。在起始架构设计与后续迭代的时候,如何最大化投入产出比,并让业务部门真正发挥数据的作用都是关键所在。在这个过程中,也有很多的尝试和迭代,但是最终的结果是,绝大部分的大数据平台自然的就会提供所谓的“数据中台”的功能,成为公司内部的一个核心价值驱动引擎。
而大数据平台 2.0 作为新一代大数据平台,则是在大数据平台 1.0 基础上,增加了数据中台的功能,以及数据运营的功能。对于“各个部门数据重复开发,浪费存储与计算资源”、“数据标准不统一,数据使用成本高”、“业务数据孤岛问题严重,数据利用效率低”,这些需要在大数据平台 1.0 阶段解决的问题,并没有在国内企业的大数据平台阶段得到考虑和解决。因此,需要一个新的平台来为这个大数据平台“打补丁”,而这个新平台,就是所谓的“数据中台”。
值得强调的是,国内企业级大数据平台解决方案提供商智领云数据中台则是云原生的数据中台,如上图所示,整个架构的最底层是硬件资源层,在硬件资源层之上,左侧是应用基础能力平台,右侧是数据基础能力平台,整个架构设计中一个很重要的方法论就是全局的应用和数据管理。
总结:
本文从数字化运营不同阶段对数据仓库、数据湖、大数据平台、数据中台等内涵作了详细说明,便于读者更好的理解和掌握数据领域相关概念,并帮助大家更好地了解大数据带给我们的能力与作用。需要强调的是,除了了解数据中台的概念外,其方法论更为重要,数据中台建设为我们企业数据服务和共享奠定了重要的基础,是企业从“数据”迈向“价值”的强大助推器。
原文地址:https://zhuanlan.zhihu.com/p/337388607