【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从
简介:Hadoop社区版CDH/HDP已经不再更新,也将终止服务。后续的平台路线图怎么规划?Cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增强?如何平滑的进行迁移?本文结合CDH/HDP平台现状,详细介绍了CDP以及如何到达CDP。
本期导读 :【阿里云 CDP 公开课】第二讲
主题:CDH/HDP 何去何从
讲师:王雪峰,Cloudera 生态资深解决方案工程师
内容框架:
- CDH/HDP 平台现状
- 为什么选择 CDP
- 怎么到达 CDP
- CDP 测试验证和使用
直播回放链接:(第2讲)
一、CDH/HDP 平台现状
CDH/HDP 产品公司合并
CDH/HDP 这两个产品比他们的公司在市场上更加广为流传。大部分用户可能只知道 CDH 或者 HDP,而不知道 Cloudera 或者 Hortonworks,实际上 CDH 是 Cloudera 公司的代表产品,HDP 是 Hortonworks 公司的代表产品。两家公司都是围绕着大数据平台去做发行版,他们在2019年1月进行了合并,形成了新的 Cloudera 公司。
两家公司在合并之后,首先把这4个产品进行打通,客户可以根据自己的生态选择从边缘计算到人工智能的处理流程。两家公司合并完成之后,紧接着就进行了产品整合,为什么?
CDH/HDP 的产品生命周期
CDP 的全称是 Cloudera Data Platform。Cloudera 公司的 CDP 推出之后,首先支持了 CDH5 和 HDP2 两个平台的直接升级。随着技术的发展,今年也支持了 CDH6 和 HDP3 的直接升级。在 CDP 推出之后,HDP 和 CDH 两个平台都可以迁移升级到 CDP 平台上,两个产品也在逐渐退出市场,产品进入了 EOS 阶段,其中 CDH5 和 HDP2 在2020年12月底已经不再进行售后支持,CDH6 和 HDP3 也分别在2021年底和2022年3月结束它的支持生命周期。
两家公司合并推出 CDP 之后,CDH 和 HDP 产品已经不再增加新的功能,仅是一些维护式的更新,使得已有用户没办法在老的 CDH/HDP 平台上继续获取新的功能和性能提升。
Cloudera 产品许可证变化
Cloudera 在两家公司合并完之后,将产品许可证也做了一些调整,使得它更加类似于成熟的 Red Hat 的开源模型。
从今年1月份开始,Cloudera 还把以前对外公开的 CDH/HDP 所有版本都拿到了 Paywall,使得用户都需要订阅 Cloudera 产品,获取到对应的授权才能下载。
对大家来说,这听起来是一个坏消息,其实也不尽然。为什么那?接下来我们讲来分析一下国内大数据生态的供应商情况。
国内大数据生态挑战
据信通院在2019年6月数据整理,当时国内有39家基于 Hadoop 的平台供应商,这些供应商里面有70%多是基于 Cloudera 的 CDH 和 HDP 的社区版封装成产品来提供给用户的,有24%是基于 Apache 封装,还有一家自研的产品。大部分供应商基本都是在 CDH/HDP 社区版进一步封装,同时替换掉 CDH/HDP 的 Logo,就发布出来自己的版本。这种行为对用户和这些供应商有什么挑战?Cloudera 的许可证模式变更之后,再把 CDH/HDP 的 logo 替换掉,是商业盗版行为,面临商业合规的风险。
那么,直接使用Apache的版本进行封装是否可以?可以,但可能存在如下风险:
风险1,在于国内大部分供应商没有足够的 Apache 的 PMC 和 Committer 资源,导致出现问题之后不能够快速定位问题,只能依靠自己的经验去猜,或到社区上去获取对应的支持,这必然没办法满足企业对应用 SLA 的需求。
风险2,这些供应商没有足够的 Hadoop 平台开发的资源,也就没有足够的能力和权限进行 Apache 社区的代码修复。为了维护产品,就会出现产品分支,供应商需要维护多个不同的版本,容易造成维护混乱和功能不一致。使用这样的产品,使得大部分非互联网企业需要享受互联网企业的试错待遇,而同时又没有办法满足他们的 SLA,导致他们没有办法去上A类应用来满足它的使用需求。
同时随着国家对安全漏洞的安全要求增强,大部分企业没有办法跟踪和解决 CVE 相关的安全审计,因为这些厂商不了解第三方库如何引用,不知道下一代产品如何更新。特别重要的是,金融业客户没有办法面对“护网”的工作需求。
我们时不时会接触到护网行动,在护网行动中会扫描出一大堆安全漏洞。而这些安全漏洞是需要对应厂商来提供解决方案的,不了解CVE的厂家是没有办法对此提供支持的。最近爆发的 Log4J 的 CVE-2021-44228 对于这类供应商就是一个巨大的挑战。
把整个中国大数据生态分析下来,我们会发现,Hadoop 使用的门槛很低,但是我们没办法真正把它运用到生产上,因为国内的厂商,没有办法去提供足够的支撑该平台可以运行在生产上。可是,Hadoop 平台作为比 RDBMS 更新的一代平台,能够解决我们很多问题,这时候我们要怎么办?是不是就放弃?答案是:否。
第二,我们可以决定未来产品发展的路线。我们会根据社区的反馈,和对新产品新功能研究创新,来决定对哪一些组件进行引入,对哪些组件选择废弃。
第三,Cloudera 因为有足够的 PMC 和 Committer,可以自行决定第三方库的引用和替换,使得用户可以放心地使用。当然这只是产品平台的一个能力,只有这些还不够。
此外,它还有完善的400售后支持体系,Cloudera 在中国有30多人的中文售后支持团队,可以支持整个中国甚至包括部分东南亚的售后。同时 Cloudera 在全球有10来个售后支持中心可以提供7×24小时售后服务。
对于企业来讲,要把关键的应用上到生产里,也需要完善的安全解决方案。Cloudera为此提供了业界最完整最成熟的安全解决方案,来帮助用户满足安全合规需求。
自研用户的压力
大数据平台除了向第三方厂商购买之外,还可以进行自研。那么自研的成本或者价值估算怎么样,我们这里用一张图表来进行说明。
如果使用 Cloudera 订阅,费用会是怎么样?
假设我们使用50个节点的列表价来计算,差不多是一年50万美元左右。在这每年50万美元的订阅费用里面我们能获取到什么?第一个是产品的使用支持,Cloudera 有庞大的工程师团队和 Apache 的 PMC、Committer 能够支持企业产品的创新和更新;同时还有300多个技术支持专家可以提供7×24小时售后支持,有专业的知识库帮助我们快速解决问题,还提供了知识库等其他增值服务。这对于大部分厂商来说这是一个成本更低、风险更小的解决方案,同时让员工主要做业务应用,可以创造更大的业务价值。
二、为什么选择 CDP
什么是 CDP?
相对于 CDH/HDP,CDP 有什么改进
CDP 是原先两个最好的企业级数据分析平台 CDH 和 HDP 融合在一起,同时增加一些新的功能,形成的一个新平台。这个平台有40多个组件,是可以提供更多功能的企业级分析平台。
第一块是通过 Cloudera Manager 负责整个平台的运营和管理工作,上图中间这部分是 CDP 的主要功能,是 CDP 平台具有的功能和能力。最下面支持各种各样的存储,HDFS、Ozone、kudu、云对象存储等。它还有数据移动功能,任务编排和用户接口的功能、有运营数据库、数据仓库的能力,搜索、安全和治理的能力,同时还有数据的加密和密钥管理的功能。Cloudera 还有的其他应用,比如 CDSW 或 Cloudera Data Flow,也可以被 Cloudera manage 来管理和支持,来满足企业更广泛的应用和使用能力。
在数据治理上,它采用了 Atlas,可以更好地管理元数据、数据血缘和监管链,同时支持业务数据等等应用。在实时数据上,对 Kafka 做了很多增强,支持连接不同存储的 Kafka connect,支持 Kafka 集群的管理和数据复制,以及集群的运维。在运营数据库上支持了完整的 ACID SQL 标准,支持二级索引,支持星型 Schema 等等。
在数据仓库上,把 Hive 引擎用 Hive-on-Tez 替代来提供更好的ETL性能,同时支持 ACID 事务支持 ANSI 2016 SQL 标准,也做了很多性能的优化。
在存储上,通过 Ozone 可以提供 HDFS 30倍的扩展性,对 S3 原生远程支持,同时可以和 Kafka、Nifi 集成。
在安全上,提供了基于 Knox 的网关 SSO,同时支持密钥管理等等。
- 搜索上,提供了非结构化数据的搜索,比如文本图像等等。
- 数据仓库上,引入了 Impala 来提供交互式 BI 查询的使用场景。
- 编辑控制器上,通过内置 SQL 编辑器来自动完成智能查询使用。
- 存储上,引入了 Kudu 和 Ozone,Kudu 可以支持快速变化的数据的快速更新,以及更好的交互式查询。
- 加密上,引入了自动传输加密以及 Ranger KMS 等能力。
前面简单说了一下 CDP 平台相对于 CDH/HDP 平台增加的功能, CDP 平台更多的价值,可以用这一张图表来表示。
通过在 CDP 平台引入 Ozone 对象存储和 HDFS 纠删码,可以提供5倍的存储密度,使得用户的存储更具有成本效益。对于安全合规比较敏感的用户,CDP 把已知的 CVE 都解决了。在最新的 CDP7.1.7里,有个用户前一段时间刚进行了安全漏洞的扫描,没有在 CDP 平台上发现任何 CVE。发现的CVE基本上都是在上下游上面,该产品更符合用户对安全合规的诉求。
最后一点是数据的安全治理,在 CDP 中通过引入新的 SDX 控制,包括默认拒绝、最低权限,策略标签、可扩展审计、一致执行等等,使得用户减少50%的工作量,来缓解监管合规性,大幅度降低任务、重载。
通过这样4个模块,Cloudera 提供了业界最完整最成熟的安全解决方案,使得企业可以更合规地去使用数据。
为什么选择基于阿里云部署的 CDP
今年 Cloudera 已经和阿里云两家公司强强合作,推出了基于阿里云部署的 CDP 平台。这个平台除了具有 CDP 平台的所有优势之外,还增加了阿里云公有云相关的一些优势。
其次是产品引擎与服务方面。第一,百分百兼容开源的 Hadoop,同时又通过两家公司的联合调优,使性能最优。第二,它能提供给客户7×24小时的专家支持服务和专业保障,使用户可以轻松地对已有的 CDH/HDP 这些平台来进行迁移,进行版本升级,参数调优等工作。
基于阿里云部署的 CDP 平台的整体架构是这样的——底层平台会使用阿里云的云盘、基于大数据的本地存储、数据湖等数据存储方式,计算层通过阿里云的 ECS 来扩展。在这之上,它通过 SDX 来管理所有数据的状态,通过 Cloudera Manager 来管理整个平台,在上面提供基于数仓、数据湖、数据工程、流计算、运营数据库等业务场景的能力。
第一,用户可以使用最新版的CDP平台,这个平台可以提供给用户更多的开源组件,更高的版本,更稳定可靠的软件版本支持,同时覆盖客户从边缘计算到人工智能的数据分析的应用场景。
第二,这个平台可以提供给用户企业级的服务支持,包括大数据专家服务,开箱即用的使用来降低运维成本。
第三,这个平台可以提供更完整更成熟的安全治理管理方案,满足企业的安全合规诉求。
同时,稳定可靠的产品,还大大降低了运维的复杂度和成本,使得企业可以聚焦到业务应用,增强企业的业务领先性。
三、怎样到达 CDP
到达 CDP 有哪些路径
到达CDP主要有两种方式,一种是原地升级,一种是迁移升级。
如何选择使用自己的升级路径
迁移升级是新搭建一个集群,然后把业务的老集群数据和应用分别拷贝到新集群上,最后把应用切换到新集群上。迁移升级有什么优点?第一是不会产生数据丢失,不会影响已有的业务,它的服务停机时间较短,只会在两者最终交接的瞬间发生停机,可能导致数据的不一致。缺点是它需要额外的硬件资源,同时需要迁移数据,整体的迁移升级时间周期会比较长。
迁移升级比较适合的用户,一是有丰富富余主机资源,例如阿里云上的用户,通过这些主机资源,可以很容易地去做中间的集群。二是租户多,时间难以协调一致的情况。对于云上的用户或者线下用户计划向云上转换的用户也都比较合适这种用户。
升级有哪些资源支持
现在在阿里云上推出来的是7.1.7版本,绝大部分用户都可以来迁移和本地升级。那么升级的主要任务是什么?
迁移升级和本地升级一样,也涉及到历史数据、Schema、批量脚本和外部应用四部分。但迁移升级的时候建议按照一个一个应用的方式来分批次进行迁移,而不需要一次性把所有东西都改造完然后一次性都迁移到新平台上,可以按照应用分批进行。同时迁移升级的时候会把数据对应的脚本和外部应用做改造,使得它能够在新平台上使用。
四、基于阿里云部署的 CDP 的测试和使用
如何申请基于阿里云部署的 CDP 测试
链接如下:
点击之后会跳转到产品免费试用申请,填写对应的信息之后,阿里云的同事会来负责后续的申请审批,审批通过之后就可以获取代金券来进行 CDP产品的试用。
基于阿里云部署的 CDP 开通流程
下面介绍一下阿里云CDP的使用方法。首先打开阿里云官网,按照以下路径:产品-大数据-相关解决方案和生态产品-cloudera企业数据云,点击之后会跳转到Cloudera产品页,这里有产品的试用说明开通。后面需要填写对应的信息来获得试用产品资格,完成之后就可以开通使用它。
测试开通流程演示
在开通试用时,每个企业有一次试用的机会,可以在试用之后再选择购买。购买支付完成以后,就能看到产品的管理页,可以在已购买的产品服务里面找到我们刚购买的产品。
然后配置整个集群的网络环境,包括 VPC、安全组等信息。用户可以选择集成高安全和非安全的集群,根据自己的需求来选择。
接下来部署 Cloudera Manager 管理员的登录账户信息,输入对应的账户和密码登录。然后选择同意产品服务协议,确认创建集群。接下来系统会创建一个硬件的订单,完成支付以后可以看到里面有5台机器,3台数据节点,1台管理节点,1台工具节点。刷新一下就可以看到整个集群的进程,它会自动部署,整个部署大概需要30分钟。大家在部署过程中可以通过查看详情来获取进展,也可以看到整个集群的信息和主机列表等内容。
部署完成以后,登录控制台来进行配置。将7180添加到安全组里面,也可以参考安全组的配置文档来配置。完成之后,点击确认,就可以通过端口登录。
本文为阿里云原创内容,未经允许不得转载。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
2018-12-29 微服务浪潮中,程序猿如何让自己 Be Cloud Native