数栈技术分享:到底什么是数据中台?终于有人说清楚了!
一、关于袋鼠云和数据中台
2017年杭州云栖大会上,袋鼠云正式将「数据中台」作为自己的业务战略方向。
2018年,袋鼠云在业内率先推出《袋鼠云数据中台专栏V1.0》,阐述自己的数据中台理念和方法论。
2019年,袋鼠云基于两年来在数据中台领域的探索和实践经验,推出《袋鼠云数据中台专栏V2.0》升级版。
二、 数据中台是理念,是方法论
【数据中台】理念由阿里云和袋鼠云最先提出。
袋鼠云依托最新的数据采集、加工处理、数据挖掘、机器学习,深度学习等技术,并结合自身多年数据应用经验,打造了袋鼠云数据中台解决方案,致力于构建“全”、“统”、“通”的大数据体系,基于「互联网+」时代的数据价值思考,构建全域数据共享能力中心,助力企业数字化,提升企业竞争力!
数据中台的实质是为企业构建「全域数据的共享能力中心」,提供数据采集、数据建模、数据研发、数据萃取、数据治理、数据服务等全链路一站式服务,构建面向业务应用的数据智能平台。
很多人会认为,【数据中台】只是一个炒出来的词汇,听起来和传统的数据仓库没有什么不同啊。
针对这个问题,我们总结了「数据中台」和「数据仓库」的几个明显的优越性:
- 分布式数据平台
传统数仓以单机关系型数据库离线分析为主;
数据中台以分布式引擎架构,同时支持离线计算/实时计算/即时计算/智能计算。 - 数据源丰富性
传统数仓以业务数据库的结构化数据为主;
数据中台涵盖业务数据、日志数据、行为埋点数据、IoT数据、爬虫数据、外部数据等。 - 建设模式方法论
传统数仓往往采用自顶向下的建设模式,以明确的业务分析驱动,延续性低;
数据中台采用自底向上的方式,结合业务需求变化不断迭代升级。 - 数据开发一站式
传统数仓往往将ODS、EDW和ETL开发切割到不同厂商工具实现;
数据中台则主张一站式可视化数据开发,借助分布式技术的力量简化数据加工处理的过程。 - 数据资产在线化
传统数仓的数据管理和治理,往往花费大量精力,最终形成的是离线的规范和文档;
数据中台则强调元数据管理统一入口的自动化和数据资产管理的在线化。 - 数据应用创新
传统数仓的数据应用以某个业务主题的BI报表和决策支持为主,相对来说目的性较为单一,而且各部门有不同的应用,建设方式呈烟囱式;
数据中台则主张打通数据孤岛,建设全域数据,释放数据应用创新的能量。
和传统企业可能某一个IT部门去自建一个数据仓库不同,今天我们谈,企业构建数据中台架构,是需要从集团战略层面来规划和推动的。在执行落地层面,则需要专业高端的人才,靠谱的合作厂商,完善的实施方法论,成熟的,低门槛的,高性价比的产品。
如果说,袋鼠云数据中台是方法论,是理念;那么袋鼠云数栈产品则是平台、是生产力工具。两者相辅相成,相互依托。
三、数栈则是工具,是产品
数栈是袋鼠云推出的企业级一站式数据中台PaaS,致力于屏蔽开源大数据引擎的复杂性,帮助用户降低大数据技术门槛、沉淀企业数据资产、治理数据问题,提供集数据采集、数据模型、 数据计算和萃取、数据治理、数据资产、数据服务全链路的一站式产品,助力客户高效、高质搭建自有的数据中台。
四、企业建设数据中台为什么要选择袋鼠云数栈?
相比开源的其他厂商的大数据平台架构,袋鼠云数栈具有以下特性:
- 一站式产品体系,覆盖数据全链路开发流程
平台覆盖全链路的数据采集、数据分析、数据挖掘、任务运维、数据质量、数据地图、数据模型、数据API开放等场景,充分满足企业建设数据中台过程中的多样复杂需求。 - 兼容开放,与市面多种计算引擎兼容
兼容市面主流大数据平台,例如:Hadoop、Cloudera、Hortonworks、FusionInsight等,或者基于数栈自有计算引擎,可以快速完成大数据平台从0到1的搭建。 - 开箱即用,从入门到熟练开发仅需3天时间
基于WEB的图形化操作界面,快速上手,屏蔽底层复杂的基础组件,极大降低企业大数据开发学习门槛,从入门到熟练开发仅需3天时间。 - 弹性轻量,灵活匹配数据中台阶段性建设
最小仅需5台虚拟机,企业已采购硬件不限硬件厂商、不限型号,不限使用年限,各功能模块可按需搭配,可灵活弹性建设数据中台,降低企业一次性投入成本。
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
github开源项目:https://github.com/DTStack/flinkx
gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx