数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级
4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的一站式大数据基础软件——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研大数据引擎 EasyMR。
今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。”
袋鼠云作为国内领先的数字化基础软件与应用服务商,自始自终坚持自主创新,专注大数据基础软件研发,利用先进技术赋能更多行业客户数字化转型,助力发掘和释放数据资源的潜在价值。
全新发布数栈V6.0产品矩阵
袋鼠云产研负责人思枢首先介绍了数栈V6.0全新产品矩阵的落地进展以及产品升级方向。通过对多年数字化实践沉淀的梳理、重构和升级,数栈V6.0形成了大数据基础平台层+大数据开发与治理层+数据分析与洞察平台层的全新数字化产品矩阵,以迭代的新组合、新能力、新技术,为数实融合应用注入更强劲的“数栈”驱动力。
整个矩阵中,大数据基础平台是底座,包含全新升级的两款产品:大数据计算引擎EasyMR 和湖仓一体EasyLake。EasyMR 主要提供 Hadoop、Spark、Flink、HBase、Trino 等一键式组件的安装、运维、部署。EasyLake 则主要提供面向数据湖的统一元数据管理,及数据服务和分析。大数据基础平台旨在为各行业的数字化转型提供随时可用的强劲动力和坚实基础。
往上看,中间层大数据开发与治理,它融合了 DataOps 数据理念,包含离线开发BatchWorks、实时开发StreamWorks、数据服务DataAPI、数据资产DataAssets和指标管理DataIndex 五大模块。以自主可控、安全创新为技术内核,将全域数据资产进行汇聚、加⼯、治理、服务、分析,为客户提供安全、稳定、易⽤的⼤数据平台,加速释放数据价值,赋能数智应用。
最上层的数据智能分析与洞察层,提供客户数据洞察UserInsight和数据可视化分析EasyBI两大应用功能。助力企业构建以业务价值为导向的数据分析与应用体系,驱动业务增长。
以下为数栈本次重点升级的大数据计算引擎产品 EasyMR,根据思枢演讲整理而成。
EasyMR:大数据计算引擎
EasyMR 的丰富功能
EasyMR 内包含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等计算组件,完全兼容 Apache 开源生态,一键开启 LDAP+Kerberos+Ranger 认证权限体系,支持库/表/行/列级权限控制,提供企业级安全管控。
EasyMR 的集群管理包括以下五大功能:
· 主机管理:可以对接x86服务器、ARM 服务器、Kubernetes 集群等主机类型,进行包括批量接入、主机下架、主机监控等在内的主机操作
· 安装部署:包含自动部署、手动部署、补丁包升/降级、组件回滚等丰富功能
· 集群运维:包含组件启停、健康检查、服务日志查看等功能,以及根据客户业务侧的使用情况实现动态扩缩容
· 监控告警:随着业务的运行,发生主机运行的异常情况,能够实现自动告警
· 基础管理:包括用户管理、操作权限管理、审计日志等功能
EasyMR 的丰富功能能够帮助企业,更全面、更智能、更安全地运用数据,加速企业数字化转型。
EasyMR 的核心特性
● 信创国产化
EasyMR 完成了与主流信创生态厂商的适配互认工作,支持统信UOS、龙蜥、麒麟等国产操作系统,鲲鹏920、飞腾等国产芯片,长城擎天CF520、华为公有云等国产服务器的适配,以及大部分国产数据库、国产中间件的适配。
EasyMR 的更多信创兼容情况请看下图:
● 开源/自主可控
EasyMR 作为袋鼠云自研的大数据基础平台,其大数据组件100%基于开源 Hadoop,完全兼容 Apache 开源生态,与开源社区同步迭代,时刻保持技术的领先性。并且 EasyMR 对 Spark、Flink、Trino、Iceberg 等部分组件特性进行优化增强,回馈社区,以开放心态共建 Hadoop 生态。
● 运维托管服务
EasyMR 提供大数据集群监控告警、安全保障、数据质量保障以及平台运维服务;提供定期巡检、深度体检、成本优化以及高阶调优服务;以及提供包括大数据集群迁移、集群容灾建设、架构设计规划等在内的实施服务,全链路一站式运维托管服务。
● 安全
通过 LDAP+Kerberos+Ranger 这套认证权限体系,对库/表/行/列级进行权限控制,实现企业级安全管控。
EasyMR 国产化适配:中间件,元数据库
Hive 的子组件 Hive Metastore,在开源的方案中通过 redis 进行缓存加速,而现在可以通过宝兰德BCS 这样的国产中间件对 redis 进行国产化替代。
Hive Metastore 本身的元数据信息在开源方案中存储在 MySQL 和 OracleSQL 中,现在也可以通过适配国产数据库,如 TDSQL、OceanBase,对开源数据库进行替代。基于此,EasyMR 实现真正的国产化,完全自主可控。
EasyMR 深知只有实现关键技术的自主化、国产化,才能真正实现技术创新,攻克“卡脖子”难题。
EasyMR 对大数据组件的功能增强
袋鼠云作为国内领先的数字化基础软件与应用服务商,十分重视强化产品的基础能力和技术能力,在开源技术的基础上,EasyMR 对 Spark、Flink、Trino、Iceberg 等多个大数据核心组件进行了功能及性能增强。具体优化见下图:
仅在2022年袋鼠云技术同学就完成了上百次的 commit,为 Hadoop 生态的技术发展贡献了属于袋鼠云的力量。
赠人玫瑰手有余香,回馈社区的同时袋鼠云实现了对整个 Hadoop 体系核心代码的完全自主掌握,对于 EasyMR 大数据平台迁移、大数据组件维保等做到了100%自主可控。
EasyMR 自主研发能力:技术开源
从2016年数栈V1.0发布开始,到如今的数栈V6.0,数栈已经历经了七年六个大版本的迭代实践。随着对技术能力的不懈探索,数栈内部也沉淀了一些优秀的大数据组件,如流批一体的数据同步集成组件ChunJun,DAG分布式任务调度组件Taier、大数据平台运维组件ChengYing等,这些组件数栈已经全部贡献给了Github,下面是袋鼠云开源的地址,欢迎使用。
Github地址:https://github.com/DTStack
技术无界,创新不止。袋鼠云数栈技术团队连续两年荣获“年度优秀开源技术团队”的称号,ChunJun 也顺利晋级“2022 年中国开源创新大赛”决赛,并荣获“优秀开源项目/社区”奖项。这些鼓励都源于数栈技术团队出众的产品技术能力和自主研发能力。
CDP/CDH 平滑迁移到 EasyMR 解决方案
基于国家对于国产信创的政策要求,以及 CDH 停止服务(EoS),用户没办法再获取售后支持的大背景,各行各业的大数据平台底座需要进行国产化替代的需求越来越强烈。基于此,数栈支持 CDP/CDH 平滑迁移到 EasyMR 的解决方案,大大降低企业迁移成本低。
生产业务不能停,该方案支持双轨运行,即客户的原 CDH 集群和信创的 EasyMR 集群可以同时运行。整个迁移过程操作简单,配置灵活,通过4步即可完成所有的迁移工作。
第一步,进行计算平台和开发套件的替换。
第二步,进行数据迁移。包括历史数据和元数据的迁移,在迁移过程中,EasyMR 支持数据检验,保证在数据迁移过程中的数据一致。
第三步,执行任务迁移。包括采集任务、数据加工任务、任务依赖关系以及分析引擎。
第四步,业务切割。包含集群的切换,及老服务器下线,新服务器上线等动作切换,最终达到 CDP/CDH 平滑迁移到 EasyMR 的目的,并且实现对客户侧的业务无感知。
EasyMR 积累了大量的迁移成功案例,经验丰富,可以保障整个迁移过程安全可靠。
Hadoop 平滑升级解决方案
大数据组件每年的版本更新速度比较快,不少企业还停留在 Hadoop2.0 的阶段。许多客户想升级到 Hadoop3.0 版本,体验新的特性和性能优化,但是客户的业务在版本更新中又不能停止,这时应该怎么做?
EasyMR 可实现节点的动态替换,将一个节点先升级到 Hadoop3.0 的节点,在这个节点上印证没有问题之后,再进行剩下节点的逐步替换,这样就真正实现了 Hadoop 的无感知平滑升级。
EasyMR 的实践应用
在介绍完 EasyMR 的具体功能和特性之后,下文将为大家介绍2个 EasyMR 的经典实践应用落地,更深地感受 EasyMR 是如何帮助企业更高效、平滑、安全地实现实现国外进口产品的国产化替代。
某全国性股份制商业银行:CDH 迁移至 EasyMR
某全国性股份制商业银行,为解决分行数据应用建设效率差等问题,数栈帮助该客户实现了 CDH 平滑迁移至 EasyMR,并且为该客户建立了“总行统一调度+分行数据协同共享”的数据应用云平台。
EasyMR 使用 Trino 替换 Impala,解决了客户 Impala 内存过度占用导致节点宕机的问题,提升查询性能,实现了资源动态隔离;并且采用「云平台」的模式,总行+各个分行是平台上的单独租户,底层存储、计算资源共享提升数据下发效率,数据权限隔离保证安全,不用再担心出现分行数据误删除、丢失等安全问题。EasyMR 兼容信创生态体系,平滑迁移至国产化环境,符合金融行业的信创国产化要求。
通过 EasyMR 大数据基础平台的建设,该全国性股份制商业银行实现了成本管理和业务管控的双效提升。
某支付行业云服务品牌:EasyMR + 数栈Saas化
金融行业正逐渐从数字化时代迈向智能化时代,该客户的需求是将 EasyMR 和数栈进行 Saas 化,依托数据中台产品,赋能客户,加快走向智能化时代的步伐。
面对客户需求,数栈 + EasyMR 与云平台的网络架构、服务器、云平台的统一权限管控等各项内容实现全面兼容适配,保证在客户开通权限资源后,依然能够保障 EasyMR 的稳定运行。并且数栈 + EasyMR 实现了「订购—自动化部署—一键扩缩容」等各类操作。
作为大数据基础软件国产化的重要推动者之一,数栈还拥有大量成熟大数据解决方案,可以更好地支持各行业智能化、数字化应用建设。
首发数栈V6.0产品白皮书
此外,会上还发布了《数栈产品白皮书》:从数字技术、产品能力、应用实践、服务支持四个方面进行深度研判,针对性克服数字化转型短板,从数据治理、湖仓一体、数据集成、DataOps 等八个方面进行解决方案解读,重点提升客户数据管控能力。此外,本白皮书总结了有效的大数据基础软件建设经验,为各行业企业的数字化转型提供参考和指导。
欢迎大家扫码进行免费获取。
数栈始终坚持自主可控,积极致力于帮助客户打造国产创新的企业级大数据基础软件,帮助客户夯实数据基座,建立从数据获取生产到数据消费利用的全生命周期管理体系,使数据“可见、可用、可管”,洞察数字化机遇,明确转型方向,创造数据新价值。
今后,数栈产品也将更加贴合实际场景,用数智化方式解题,践行“用数据产生价值”的使命。
《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack