08-安装Spark

8、安装 Spark

我们这里就只配置 Yarn 模式的 Spark 集群,若需要 Standalone 模式 和 Local 模式,请参考角标文档

独立部署(Standalone)模式由 Spark 自身提供计算资源,无需其它框架提供资源。这种方式降低了和其它第三方资源框架的耦合性,独立性非常强。但是你也要记住,Spark 主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是要和其它专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的 Yarn 环境下 Spark 是如何工作的(其实是因为在国内工作中,Yarn 使用的非常多)

8.1 上传文件

spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 linux /opt/software/ 目录下

8.2 解压缩并改名

[bigdata@bigdata101 software]$ tar zxvf spark-3.0.0-bin-hadoop3.2.tgz  -C  /opt/module/
[bigdata@bigdata101 module]$ mv spark-3.0.0-bin-hadoop3.2/ spark-yarn

8.3 配置环境变量

[bigdata@bigdata101 spark-yarn]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容:

# Spark_HOME
export SPARK_HOME=/opt/module/spark-yarn
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

8.4 修改 spark-env.sh 配置文件

[bigdata@bigdata101 spark-yarn]$ mv  conf/spark-env.sh.template  conf/spark-env.sh

在里面添加如下内容:

YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

不需要添加 jdk 的配置,因为统一在 my_env.sh 中配置了

  • 注意:一定要 source /etc/profile.d/my_env.sh,我就是忘记了这一步,找了好久的原因😂🤣😜

8.5 分发 Spark

[bigdata@bigdata101 module]$ xsync spark-yarn/

8.6 启动测试

确保 hadoop,zookeeper 都已正常启动了

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.0.0.jar 10

若你的结果也是和我的一样,恭喜你,说明配置成功了。

8.7 配置历史服务器

8.7.1 修改 spark-defaults.conf.template 文件名

# 修改 spark-defaults.conf.template 文件名
[bigdata@bigdata101 spark-yarn]$ mv conf/spark-defaults.conf.template conf/spark-defaults.conf

8.7.2 修改 spark-defaults.conf 文件

修改 spark-defaults.conf 文件,配置日志存储路径

注意:根据你的需要修改以上内容

注意:需要启动 hadoop 集群(我这里使用了myhadoop.sh 一键启动脚本),HDFS 上的目录需要提前存在。(不存在的话还等什么,赶紧去创建啊)

[bigdata@bigdata101 spark-yarn]$ hdfs dfs -mkdir /directory

8.7.3 修改 spark-env.sh 文件,添加日志配置

添加如下内容:

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://bigdata101:8020/directory 
-Dspark.history.retainedApplications=30"
  • 参数1含义:WEB UI 访问的端口号为 18080
  • 参数2含义:指定历史服务器日志存储路径
  • 参数3含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数

8.7.4 修改 spark-defaults.conf 文件

添加如下内容:

spark.yarn.historyServer.address=bigdata101:18080
spark.history.ui.port=18080

8.7.5 启动历史服务

[bigdata@bigdata101 spark-yarn]$ sbin/start-history-server.sh

重新提交应用:

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

如果不成功,则删除掉 集群上 hadoop/data hadoop/logs,然后重新格式化,再启动就可以了,然后再按照上面配置即可。

更多内容请参考:01_尚硅谷大数据技术之SparkCore.pdf 备用链接

posted @ 2022-05-18 23:37  LoremMoon  阅读(58)  评论(1编辑  收藏  举报