开启spark日志聚集功能
spark监控应用方式:
1)在运行过程中可以通过web Ui:4040端口进行监控
2)任务运行完成想要监控spark,需要启动日志聚集功能
开启日志聚集功能方法:
编辑conf/spark-env.sh文件,在其中加入如下部分:
SPARK_HISTORY_OPTS=-Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider
SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://db02:8020/user/hadoop/evtlogs
编辑spark-default.conf配置文件,在其中加入如下部分:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://db02:8020/user/hadoop/evtlogs
spark.eventLog.compress true
启动spark历史服务器:
sbin/start-history-server.sh
至此,已经成功配置了spark的日志聚集功能,现在可以通过web UI访问以后运行的spark任务历史日志了。
附件:
目前spark-env.sh文件内容: |
JAVA_HOME=/opt/java/jdk1.7.0_67 SCALA_HOME=/opt/scala-2.10.4 HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0/etc/hadoop SPARK_MASTER_IP=db02 SPARK_MASTER_PORT=7077 SPARK_MASTER_WEBUI_PORT=8080 SPARK_WORKER_CORES=2 SPARK_WORKER_MEMORY=5g SPARK_WORKER_PORT=7078 SPARK_WORKER_WEBUI_PORT=8081 SPARK_WORKER_INSTANCES=1 SPARK_WORKER_DIR=/opt/cdh-5.3.6/spark-1.3.0/data/tmp SPARK_HISTORY_OPTS=-Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://db02:8020/user/hadoop/evtlogs |
目前spark-defaults.conf文件内容: |
spark.master spark://db02:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://db02:8020/user/hadoop/evtlogs spark.eventLog.compress true |