CDH中如何升级Spark

公司平时使用的CDH版本的hadoop生态，spark任务是基于yarn来管理的，而不是基于原生的spark master slave集群管理。

因此任务的大致启动模式是：

如果是Cluster模式：

A节点启动Spark-submit，这个程序即为client，client连接Resource Manager
Resource Manager指定一个Node Manager创建AppMaster，这个AppMaster就是Driver
AppMaster向Resource Manager申请资源创建Spark的Excutor
Excutor向Driver(AppMaster)报告程序结果

如果是Client模式：

A节点启动Spark-submit，这个程序就是client，此时直接创建Driver。
连接Resource Manager创建AppMaster
Driver向AppMaster申请创建Excutor，AppMaster再跟Resource Manager申请资源创建Excutor
Excutor向Driver(Client)报告程序结果

那么这种环境下如何升级Spark呢？

通过上面的过程分析，可以知道，Spark版本存在两个地方：一个是A节点提交Spark-submit的程序必须是2.3.0版本的；另一个是Yarn使用的lib必须是2.3.0版本的。

虽然暂时还屡不清楚来龙去脉，但是跟着过一遍吧！

第一步，在A节点下载spark2.3的jar

[xxx@hnode10 app]$ ls -l
total 628168
drwxrwxr-x  6 hdfs hdfs      4096 Jan  9 10:35 akita
-rw-r--r--  1 hdfs hdfs  18573432 Jan  9 10:34 akita-release.tar.gz
lrwxrwxrwx  1 hdfs hdfs        46 Jan  2 09:37 canal -> /var/lib/hadoop-hdfs/app/canal.deployer-1.0.25
drwxrwxr-x  6 hdfs hdfs      4096 Jan  2 09:36 canal.deployer-1.0.25
drwxrwxr-x  4 hdfs hdfs      4096 May 31 09:11 hadoop
lrwxrwxrwx  1 root root        50 Jun  5 12:34 spark -> /var/lib/hadoop-hdfs/app/spark-2.2.0-bin-hadoop2.6
drwxr-xr-x 14 hdfs hdfs      4096 Nov  9  2017 spark-2.1.1-bin-hadoop2.6
-rw-r--r--  1 hdfs hdfs 198804211 Oct 23  2017 spark-2.1.1-bin-hadoop2.6.tgz
drwxr-xr-x 13 hdfs hdfs      4096 Jun  5 12:33 spark-2.2.0-bin-hadoop2.6
-rw-rw-r--  1 hdfs hdfs 201706782 Jul 11  2017 spark-2.2.0-bin-hadoop2.6.tgz
drwxr-xr-x 13 hdfs hdfs      4096 Feb 23 03:46 spark-2.3.0-bin-hadoop2.6
-rw-rw-r--  1 hdfs hdfs 224121109 Feb 23 03:54 spark-2.3.0-bin-hadoop2.6.tgz
lrwxrwxrwx  1 root root        25 Jun  6 09:04 spark23 -> spark-2.3.0-bin-hadoop2.6

第二步，修改配置文件和启动脚本

解压后，创建一个新的软连接 spark23到对应的目录：

ln -s /var/lib/hadoop-hdfs/app/spark-2.3.0-bin-hadoop2.6 spark23

然后配置对应的启动脚本：

[xxx@hnode10 bin]$ ls -l
total 9588
-rwxr-xr-x 1 hdfs hdfs    2991 Oct 23  2017 spark2-shell
-rwxr-xr-x 1 hdfs hdfs    1013 Oct 23  2017 spark2-submit
-rwxr-xr-x 1 root root    2993 Jun  6 17:39 spark23-shell
-rwxr-xr-x 1 root root    1015 Jun  6 17:41 spark23-submit

在spark23-submit中修改SPARK_HOME

export SPARK2_HOME=/var/lib/hadoop-hdfs/app/spark23
exec "${SPARK2_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"

在spark23-shell中修改SPARK_HOME

cygwin=false
case "$(uname)" in
  CYGWIN*) cygwin=true;;
esac

# Enter posix mode for bash
set -o posix

export SPARK2_HOME=/var/lib/hadoop-hdfs/app/spark23
....

修改Spark2.3中的配置文件spark-defaults.conf

spark.yarn.jars  hdfs://nameservice1/app/spark23/lib/*.jar
spark.history.fs.logDirectory  hdfs://nameservice1/user/spark/applicationHistory

其中spark.yarn.jars指定了yarn使用的spark jar包目录。

第三步，在hdfs中上传yarn使用的lib

最后，找一个hello world启动下试试吧~

posted @ 2018-06-06 18:48 xingoo 阅读(1322) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

历史上的今天：
2017-06-06 刚接触机器学习这一个月我都做了什么？
2014-06-06 剑指OFFER之栈的压入、弹出序列（九度OJ1366）

公告

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

+加关注

2025年3月

日

一

二

三

四

五

六

xingoo

CDH中如何升级Spark

如果是Cluster模式：

如果是Client模式：

那么这种环境下如何升级Spark呢？

第一步，在A节点下载spark2.3的jar

第二步，修改配置文件和启动脚本

第三步，在hdfs中上传yarn使用的lib

公告

最新随笔

积分与排名

随笔分类 (900)

随笔档案 (1028)

常用工具

官方文档

好友链接