Spark Submit的一些注意事项
脚本示例
spark-submit --master yarn \ --packages org.yang.component:common:1.2.3-SNAPSHOT,com.cloudera.impala.jdbc:ImpalaJDBC41:2.5.41 \ --repositories https://nexus.yang.cn/repository/maven-public/ \ --deploy-mode cluster \ --class org.resourcesubmit.spark.app.RSKafkaToHive \ --num-executors 1 \ --executor-memory 1G \ --executor-cores 2 \ --driver-memory 512m \ --conf yarn.nodemanager.resource.memory-mb=512 \ --conf yarn.scheduler.maximum-allocation-mb=1024 \ --conf spark.executor.memoryOverhead=1024 \ --conf spark.core.connection.ack.wait.timeout=500 \ --conf mapreduce.fileoutputcommitter.marksuccessfuljobs=false \ oss://jars/sensor/ResourceSubmitETL-1.0-SNAPSHOT-jar-with-dependencies.jar 参数1 参数2
注意点
1. -- conf 这种参数配置形式 ‘=’前后不能有空格
2.声明jar 包 一定要放在最后,之后只能跟 要传入的参数,其他的全部失效
3.当jar包引用了maven私服中的依赖时,需要指明maven仓库地址和packages, packages这个参数是要传你引用了哪些个包,否则就会报ClassNotFoundException