spark部署示例

1、修改配置文件:spark-env.sh

#非必须
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
#非必须
export SPARK_SCALA_VERSION=2.13
#非必须
export SPARK_CONF_DIR=/data/spark-3.4.0-bin-hadoop3-scala2.13/conf
#非必须
export HADOOP_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#使用yarn部署时必须
export YARN_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#非必须
export SPARK_DAEMON_MEMORY=2048m
#非必须
export SPARK_LOG_DIR=/var/log/spark

2、配置文件:hive-site.xml

使用hive时,直接把hive的配置文件hive-site.xml复制到conf下

3、需要使用iceberg时,可以把引入jiar包:iceberg-spark-runtime

jar包:iceberg-spark-runtime-3.3_2.13-1.2.0.jar复制到jars下

4、创建spark用户,并添加附加组hadoop、supergroup

usermod spark -G hadoop
usermod spark -G supergroup

5、启动,使用spark用户启动,使用yarn方式启动,会打印日志的输出位置

--非必须
sbin/start-history-server.sh

--使用yarn启动
sbin/start-thriftserver.sh --master yarn

--使用yarn启动,指定使用内存
sbin/start-thriftserver.sh --master yarn --driver-memory 4G --executor-memory 6G --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

6、在yarn的可视化界面查看运行的spark

http://127.0.0.1:8088/
posted @   rbcd  阅读(5)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示