数据中台的功能定位是完成公司内部数据能力的抽象、共享和复用,因此,数据中台的架构必须围绕这三个功能来设计。
数据中台搭建于大数据平台及数据仓库之上,将大数据平台和数据仓库所实现的功能以通用数据能力的形式提供给企业的所有部门。因此,单从功能上来讲,大数据平台实现具体的数据能力,数据仓库是业务建模,而数据中台则需要把大数据平台、数据仓库的数据和接口组织起来,通过打通数据提升数据能力,通过共享提高全局使用效率。因此数据中台的架构设计应该考虑如何有效地完成抽象、共享和复用的功能。
要搭建一个企业级的数据中台,是一个及其庞大的一个工程,涉及到很多的方面,先看一个数据中台的架构图,当然数据中台的架构在每个企业都是不一样的,要结合自己公司的业务场景才是符合公司的数据中台架构,下图只是数据中台架构图的一个例子。
数据集成开发平台
- 数据集成开发平台能最高效地使用底层的组件和数据,提供从源数据到数据能力的转换。数据集成平台是数据中台数据接入的入口。
- 数据集成是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。
- 数据集成方式一般有数据库同步、埋点、网络爬虫、消息队列等;
- 从汇聚的时效性来分,有离线批量汇聚和实时采集,也有增量同步和全量同步。在数据集成的过程中一般会用到datax,flume,sqoop,canal等工具。
数据基础能力平台
- 常用的大数据平台组件、数据仓库、数据湖的工具、ETL工具、数据可视化工具等。
- 数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具,以及任务的管理、代码发布、运维、监控、告警等一系列集成工具,方便使用,提升效率
数据体系
- 有了数据集成、数据开发模块,中台已经具备传统数据仓库(后面简称:数仓)平台的基本能力,可以做数据的汇聚以及各种数据开发,就可以建立企业的数据体系。
- 数据体系是中台的血肉,开发、管理、使用的都是数据。大数据时代,数据量大,增长快,业务对数据的依赖也会越来越高,必须考虑数据的一致性和可复用性,垂直的、烟囱式的数据和数据服务的建设方式注定不能长久存在。
- 不同的企业因业务不同导致数据不同,数据建设的内容也不同,但是建设方法可以相似,数据要统一建设,建议数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设
- 数据体系建设最终呈现的结果是一套完整、规范、标准、准确的数据体系,可以方便支撑数据应用。
数据资产管理
- 通过数据体系建立起来的数据资产较为偏技术,业务人员比较难理解。
- 资产管理是以企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控)
- 数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。
数据服务体系
- 前面利用数据集成、数据开发建设企业的数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。
- 数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。
- 企业的数据服务是千变万化的,中台产品可以带有一些标准服务,但是很难满足企业的服务诉求,大部分服务还是需要通过中台的能力快速定制。
- 数据中台的服务模块并没有自带很多服务,而是提供快速的服务生成能力以及服务的管控、鉴权、计量等功能
运营体系和安全体系
- 通过前面的数据集成、数据开发、数据体系、数据资产管理、数据服务体系,已经完成了整个数据中台的搭建和建设,也已经在业务中发挥一定的价值。
- 运营体系和安全管理是数据中台得以健康、持续运转的基础,如果没有它们,数据中台很可能像个一般项目一样,会在搭建起平台、建设部分数据、尝试一两个应用场景之后而止步,无法正常地持续运营,不能持续发挥数据的应用价值。这也就完全达不到建设数据中台的目标。
- 数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。
- 企业通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。数据的安全治理应贯穿于数据的整个生命周期
中台的理念,即沉淀和去重业务线的数据,将不同系统中的数据进行全面汇集和管理,提高信息传递效率。中台的输出形式为标准化的 API,数据中台可以简单理解为包含数仓体系和数据应用集的结合。
阿里现在已经把阿里云上大数据相关的产品进行了抽象和打包,成为“阿里数据中台”独立的产品,从应用场景出发,提炼出几款最核心的数据产品,组装成为数据中台。通用的主要是四大件:
- QuickAudience:阿里商业化的CDP平台,包括数据对接、模型配置、用户圈选与分群,渠道连接等功能,对用户的触达和营销策略的沉淀,提升用户运营的效率,让营销更简单,更高效。
- QuickBI:自助BI和数据可视化分析平台
- QuickTracking:用户行为数据采集和洞察分析
- Dataphin:数据仓库规范化、系统化建模工具
- 最底层的数据存储及计算主要是MaxCompute以及Dataworks那些
统一数据服务架构
元年科技
元年科技作为数据中台垂直领域的解决方案提供商,数据中台产品矩阵主要包括:数据服务、标签体系、指标体系、多决策建模、数据资产及数据开发等
IBM数据字化中台
参考架构一:
参考架构二:
参考架构三:
参考架构四:
参考架构五:
参考架构六:
参考架构七:
参考架构八:
小结:
1、数据采集\接入平台(工具)(阿里_OneClick):数据中台数据接入的入口
2、数据基础平台(工具)(阿里_数据研发平台IPaas):离线、实时、算法开发工具、任务管理、运维、监控、告警
3、数据资产体系(偏技术)(阿里_OneData_Dataphin):贴源数据、统一数仓、标签数据、应用数据;最终呈现的结果是一套完整、规范、标准、准确的数据体系
4、数据资产管理(偏应用)(阿里_资产管理IPaas):数据资产目录(资产地图)、元数据、数据质量、数据血缘、数据生命周期
5、数据服务体系(阿里_OneService):服务的管控、鉴权、调用
6、数据运营体系:
7、数据安全体系:
参考资料