Spark部署模式&端口号&提交作业参数说明

Posted on 2020-12-04 15:47 乔伊_413 阅读(758) 评论(0) 收藏举报

部署模式对比

模式	Spark安装机器数	需要启动的进程	所属	应用场景
Local	1	无	Spark	测试
Standalone	3	Master&Worker	Spark	单独部署
Yarn	1	Yarn&HDFS	Hadoop	混合部署

端口号:

　　- 4040(计算端口) : Spark查看当前Spark-shell 运行任务情况端口号

　　- 7077 : Spark Master 内部通信服务端端口号

　　- 8080(资源) : Standalone模式下,Spark Master Web 端口号

　　- 18080 : Spark历史服务器端口号

　　- 8088 : Hadoop YARN 任务运行情况下查看端口号

Spark提交作业说明：

# 实例
spark-submit \
  --master local[5]  \
  --driver-cores 2   \
  --driver-memory 8g \
  --executor-cores 4 \
  --num-executors 10 \
  --executor-memory 8g \
  --class PackageName.ClassName XXXX.jar \
  --name "Spark Job Name" \
  InputPath      \
  OutputPath

1、--class 表示要执行程序的主类，可以更换为自定义的程序

2、--master local[2] 部署模式，默认为本地模式，数字表示分配CPU核数量

3、--driver-cores 2 设置driver使用内核数量为2，默认为1

4、--driver-memory 8g 设置driver内存大小为 8G，默认为512M

5、--executor-cores 4 设置executor使用的内核数为4，默认为1，官方建议 2-5个

6、--num-executors 10 设置executor的数量为10，默认为2

7、--executor-memory 8g 设置executor的内存大小为8G，默认为1G

8、--name 设置作业名称

9、 InputPath&OutputPath 输入输出配置

刷新页面返回顶部

乔伊_413

导航

公告

Spark部署模式&端口号&提交作业参数说明

部署模式对比

端口号:

- 4040(计算端口) : Spark查看当前Spark-shell 运行任务情况端口号

Spark提交作业说明：