Spark 配置历史服务

本文章的前提是
Spark 3.5.0 独立部署(Standalone)模式
or
Spark Yarn模式

1.在Hadoop上创建用于存放Spark日志的存储路径

hadoop fs -mkdir /spark_logs

2.tmp目录创建存放事件日志的目录

mkdir /tmp/spark-events

3.修改Spark的配置文件

cd /usr/spark/spark-3.5.0-bin-hadoop3/conf
mv spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://192.168.58.130:8020/spark_logs

如果运行在yarn模式下,还需要添加yarn相关的配置

spark.yarn.historyServer.address=192.168.58.130:18080
spark.history.ui.port=18080
spark.history.fs.logDirectory=hdfs://192.168.58.130:8020/spark_logs

4.修改 spark-env.sh 文件, 添加日志配置

在配置文件中配置了历史服务器的参数,在此处可以不配置

# spark.history.ui.port: WEB UI 访问的端口号为 18080
# spark.history.fs.logDirectory: 指定历史服务器日志存储路径
# spark.history.retainedApplications: 指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序
# 信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://192.168.58.130:8020/spark_logs
-Dspark.history.retainedApplications=30"

5.重新启动集群并启动历史服务

../sbin/start-all.sh
../sbin/start-history-server.sh

6.执行一个测试任务

cd ..
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.58.130:7077 ./examples/jars/spark-examples_2.12-3.5.0.jar 10

如果运行在yarn模式下,执行下面的命令

cd ..
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.5.0.jar 10

7.查看历史服务

http://192.168.58.130:18080/

作者:奇

出处:https://www.cnblogs.com/fanqisoft/p/17938751

版权:本作品采用「本文版权归作者和博客园共有,欢迎转载,但必须给出原文链接,并保留此段声明,否则保留追究法律责任的权利。」许可协议进行许可。

posted @   SpringCore  阅读(422)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
more_horiz
keyboard_arrow_up light_mode palette
选择主题
点击右上角即可分享
微信分享提示