Spark on Yarn配置
1、Spark on Yarn配置
1.)在搭建好的Spark上修改spark-env.sh文件:
# vim $SPARK_HOME/conf/spark-env.sh
添加以下配置:
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
2.)在搭建好的Spark上修改spark-defaults.conf文件
# vim $SPARK_HOME/conf/spark-defaults.conf
添加以下配置:
spark.master yarn
yarn的capacity-scheduler.xml文件修改配置保证资源调度按照CPU + 内存模式:
<property> <name>yarn.scheduler.capacity.resource-calculator</name> <!-- <value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator</value> --> <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value> </property>
2、Spark on Yarn日志配置
在yarn-site.xml开启日志功能: <property> <description>Whether to enable log aggregation</description> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log.server.url</name> <value>http://master:19888/jobhistory/logs</value> </property> 修改mapred-site.xml: <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master:19888</value> </property>
修改spakr-defaults.conf文件:
spark.eventLog.dir=hdfs://bda1node01:8020/user/spark/applicationHistory spark.eventLog.enabled=true spark.yarn.historyServer.address=http://bda1node01:18018
修改spark-evn.sh环境变量:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18018 -Dspark.history.fs.logDirectory=hdfs://bda1node01:8020/user/spark/applicationHistory"
yarn查看日志命令: yarn logs -applicationId <application_1590546538590_0017>
启动Hadoop和Spark历史服务器:
# mapred --daemon start historyserver # $SPARK_HOME/sbin/start-history-server.sh
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
· 提示词工程——AI应用必不可少的技术
2021-04-06 ArrayList线程安全问题解决