spark部署示例

1、修改配置文件：spark-env.sh

#非必须
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
#非必须
export SPARK_SCALA_VERSION=2.13
#非必须
export SPARK_CONF_DIR=/data/spark-3.4.0-bin-hadoop3-scala2.13/conf
#非必须
export HADOOP_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#使用yarn部署时必须
export YARN_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#非必须
export SPARK_DAEMON_MEMORY=2048m
#非必须
export SPARK_LOG_DIR=/var/log/spark

2、配置文件：hive-site.xml

使用hive时，直接把hive的配置文件hive-site.xml复制到conf下

3、需要使用iceberg时，可以把引入jiar包：iceberg-spark-runtime

把jar包：iceberg-spark-runtime-3.3_2.13-1.2.0.jar复制到jars下

4、创建spark用户，并添加附加组hadoop、supergroup

usermod spark -G hadoop
usermod spark -G supergroup

5、启动，使用spark用户启动，使用yarn方式启动，会打印日志的输出位置

--非必须
sbin/start-history-server.sh

--使用yarn启动
sbin/start-thriftserver.sh --master yarn

--使用yarn启动，指定使用内存
sbin/start-thriftserver.sh --master yarn --driver-memory 4G --executor-memory 6G --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

6、在yarn的可视化界面查看运行的spark

http://127.0.0.1:8088/

posted @ 2024-08-12 06:20 rbcd 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

spark部署示例

公告