从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化

在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而,由于国际形势的转变,以海外大数据基础平台作为基石构建的数据中台面临着极为严峻的安全挑战。

● Cloudera 和 Hortonworks 产品开启付费订阅模式

自2021年1月31日起,Cloudera 旗下的所有软件不再提供社区版,转而采用需付费的订阅模式,并且订阅费用颇高。

● 企业版停止更新和服务

Cloudera 和 Hortonworks 合并后,推出的新平台 CDP 是 CDH 和 HDP 的最后版本,企业用户无法获取新功能和性能提升,并且2022年3月后停止售后支持。

● 国际事件导致的供应中断风险

如俄乌事件,Oracle、Google、苹果、英特尔等公司相继停止对俄业务,进一步暴露外国软件供应链的脆弱性和风险。

面对复杂多变的国际局势,我国陆续推出相应政策推动信创产业发展。比如国资委就要求,从23年初开始,每个季度要上报信创系统的替换进度。并要求在2027年底前,实现中央企业的信息化系统国产化替代。

因此,无论是因为 CDH 不再维护,还是为了实现国产化替代,或者是为了追求更高的性能和安全性,大数据集群迁移的需求都愈发迫切。

EasyMR 作为一款领先的大数据存储计算平台,深刻理解企业在集群迁移过程中面临的挑战和痛点,其 EasyManager 大数据运维管理平台推出了功能强大的「集群迁移」模块,为企业提供一站式的集群迁移解决方案,助力企业在确保数据安全和完整性的同时,轻松高效地完成集群迁移工作。

多集群配置支持:一站式管理

支持多种大数据平台的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。无论企业当前使用的是哪种平台,将要迁往哪种平台,EasyManager 都能无缝兼容,为企业提供灵活的迁移选择。

这种多集群配置支持,不仅简化了迁移操作,还提高了企业的灵活性,让企业能够根据实际业务需求,选择最合适的大数据平台。

file

集群跨域互信检测

集群迁移中源集群与目标集群可能分布在不同的物理位置或不同的网络环境中,甚至跨越不同的企业和组织。在这种复杂的环境下,确保集群之间的互信是保障数据安全和稳定运行的前提。

跨域互信检测的主要目的是:

· 确保集群间的安全通信:防止未经授权的访问和数据泄露

· 验证集群间的身份认证:确保只有可信的集群才能进行数据交换和协同计算

· 保障数据完整性和一致性:防止数据在传输过程中被篡改或丢失

迁移调度策略:灵活的任务控制

在集群迁移过程中,合理的任务调度和并发控制至关重要。EasyMR 提供了配置迁移调度策略的功能,允许企业根据自身的业务需求和资源状况,灵活地设定迁移任务的网络带宽和并发度。

通过灵活调度策略设定,企业可以最大化地利用现有网络、计算资源,确保迁移过程高效、有序地进行。同时,任务并发控制功能还能有效防止系统过载,保障系统的稳定运行。

file

数据一致性校验:保障数据准确性

在大数据集群迁移过程中,数据一致性校验是确保数据完整性和准确性的关键步骤。EasyMR 针对数据一致性校验提供了一整套详细而强大的功能,帮助企业在迁移过程中保证数据的准确性和一致性。

file

● Schema 采集和表结构对比

· Schema 采集

Schema 采集是指从源集群和目标集群中提取数据库的结构信息,包括表名、字段名、字段类型、索引、约束等。这些信息是进行表结构对比的基础。

· 表结构对比

在迁移过程中,对比源集群和目标集群的表结构是确保数据一致性的第一步。表结构对比包括以下几个方面:

1)字段数量对比:确保源表和目标表的字段数量一致

2)字段名称和类型对比:确保字段名称和数据类型一致,避免因类型不匹配导致的数据错误

3)索引和约束对比:确保索引和约束在迁移后保持一致,保证数据操作的效率和安全性

● 记录数采集和记录数对比

· 记录数采集

记录数采集是指统计源集群和目标集群中各表的记录数量,记录数的对比可以快速检测出是否有数据丢失或重复。

· 记录数对比

记录数对比主要是对比源表和目标表中的记录数量是否一致。记录数不一致可能表明数据在迁移过程中丢失或重复,需要进一步的检查和处理。

● 数值 SUM 采集和数值字段对比

· 数值 SUM 采集

数值 SUM 采集是对源集群和目标集群中所有数值类型的字段进行求和操作。通过 SUM值 的对比,可以检查出数值数据的一致性。

· 数值字段对比

数值字段对比是对比源表和目标表中数值字段的 SUM 值,确保数值数据在迁移后的总和一致。这可以有效地发现数值数据在迁移过程中可能发生的偏差和错误。

● 字符 Max 采集和字符字段对比

· 字符 Max 采集

字符 Max 采集是指对源集群和目标集群中所有字符类型的字段进行最大值的提取,通过 Max 值的对比,可以检查出字符数据的一致性。

· 字符字段对比

字符字段对比是对比源表和目标表中字符字段的 Max 值,确保字符数据在迁移后的最大值一致。这可以有效地发现字符数据在迁移过程中可能发生的错误和遗漏。

● 抽样采集和 MD5 对比

· 抽样采集

从源集群和目标集群中随机抽取一定数量的数据样本进行对比。抽样采集可以提高数据对比的效率,减少全量对比的时间和资源消耗。

· MD5 对比

通过对源集群和目标集群中的数据进行 MD5 哈希计算,将哈希值进行对比,确保数据的一致性。

实时监控与日志定位

为了帮助用户及时了解迁移进度和处理迁移过程中出现的问题,EasyMR 提供了详细的页面查看和日志记录功能

● 迁移任务状态查看

用户可以在页面上实时查看迁移任务的状态,了解迁移进度和结果。

● 迁移日志记录和分析

系统会记录迁移过程中的详细日志,用户可以通过日志定位和解决迁移过程中出现的问题,确保迁移任务顺利完成。

file

总结

EasyMR 为企业提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务,同时支持一站式迁移解决方案。迁移流程产品化不仅简化了操作,还提升了迁移效率和安全性。无论是数据存储与管理,还是任务调度与控制,EasyMR 都能为企业提供全面支持。

特别是在集群国产化替代方面,EasyMR 通过优化的迁移流程和强大的技术支持,帮助企业顺利完成从现有环境到 EasyMR 国产环境的迁移,实现大数据集群的平稳过渡和国产化适配。
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

posted @ 2024-08-07 13:56  袋鼠云数栈  阅读(18)  评论(0编辑  收藏  举报