Spark安装和配置
背景:在现有的hadoop集群上,进行安装Spark
需要准备:hadoop,scala,jdk
spark需要依赖于java运行,所以需要jdk,版本选用2.4.5
scala安装:
必须在jdk安装完毕才安装,下载scala:https://downloads.lightbend.com/scala/2.13.4/scala-2.13.4.tgz
# 解压到指定目录 tar -zxvf scala-2.13.4.tgz -C /app/scala # 配置环境变量,增加SCALA_HOME export SCALA_HOME=/app/scala/scala-2.13.4 export PATH=$PATH:${SCALA_HOME}/bin # 重新加载环境变量 source /etc/profile # 查看scale是否安装成功 scala -version
#下载解压spark, 下载地址: https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /app/spark # 配置环境变量,增加SPARK_HOME export SPARK_HOME=/app/spark/spark-2.4.5-bin-hadoop2.7 export PATH=$PATH:${SPARK_HOME}/bin
进入到Spark的conf目录下,配置文件修改 spark-env.sh
# 拷贝spark-env.sh文件 cp spark-env.sh.template spark-env.sh # 在最后面增加spark-env配置 export SCALA_HOME=/app/scala/scala-2.13.4 export JAVA_HOME=/app/jdk/jdk1.8.0_211 # 指定主节点地址 export SPARK_MASTER_HOST=master export HADOOP_HOME=/app/hadoop/hadoop-2.7.7
修改slaves
# 拷贝slaves cp slaves.template slaves # 增加从节点地址(ip或者hsots) slave1slave2
配置完毕拷贝spark目录到2个从节点,拷贝完毕配置环境变量
scp -r /app/spark root@hadoop-slave-01:/app scp -r /app/spark root@hadoop-slave-02:/app # 参考上面环境变量的配置
spark启动和验证
因为spark需要使用yarn做资源调度,所以需要先启动hadoop的yarn或hadoop的全部
进入到spark的sbin目录,启动spark
./start-all.sh
可以看到主节点和从节点都开始启动
验证成功
方式一:
jps查看java进程,spark主进程为master,工作进程为worker
master节点的jps:
slave-01的jps:
方式二:
spark默认使用8080对外提供web管理界面(master的8080),如下图所示:
上图也显示了worker的相关信息