Spark安装和配置

背景:在现有的hadoop集群上,进行安装Spark
 
 
需要准备:hadoop,scala,jdk
 
spark需要依赖于java运行,所以需要jdk,版本选用2.4.5
 
scala安装:
必须在jdk安装完毕才安装,下载scala:https://downloads.lightbend.com/scala/2.13.4/scala-2.13.4.tgz
 
# 解压到指定目录
tar -zxvf  scala-2.13.4.tgz -C /app/scala
# 配置环境变量,增加SCALA_HOME
export SCALA_HOME=/app/scala/scala-2.13.4
export PATH=$PATH:${SCALA_HOME}/bin
# 重新加载环境变量
source /etc/profile
# 查看scale是否安装成功
scala -version

 

#下载解压spark, 下载地址: https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz 
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz  -C /app/spark
# 配置环境变量,增加SPARK_HOME
export SPARK_HOME=/app/spark/spark-2.4.5-bin-hadoop2.7
export PATH=$PATH:${SPARK_HOME}/bin
 
进入到Spark的conf目录下,配置文件修改 spark-env.sh

# 拷贝spark-env.sh文件
cp spark-env.sh.template spark-env.sh
# 在最后面增加spark-env配置
    export SCALA_HOME=/app/scala/scala-2.13.4
    export JAVA_HOME=/app/jdk/jdk1.8.0_211
    # 指定主节点地址
    export SPARK_MASTER_HOST=master
    export  HADOOP_HOME=/app/hadoop/hadoop-2.7.7

修改slaves

# 拷贝slaves
cp slaves.template slaves
# 增加从节点地址(ip或者hsots)
slave1slave2
 
配置完毕拷贝spark目录到2个从节点,拷贝完毕配置环境变量
scp -r /app/spark root@hadoop-slave-01:/app
scp -r /app/spark root@hadoop-slave-02:/app
# 参考上面环境变量的配置
 
spark启动和验证
因为spark需要使用yarn做资源调度,所以需要先启动hadoop的yarn或hadoop的全部
进入到spark的sbin目录,启动spark
./start-all.sh

 

可以看到主节点和从节点都开始启动
验证成功
方式一:
jps查看java进程,spark主进程为master,工作进程为worker
master节点的jps:

 

 
slave-01的jps:

 

 

 

方式二:
spark默认使用8080对外提供web管理界面(master的8080),如下图所示:

上图也显示了worker的相关信息

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2021-03-09 14:46  欣欣姐  Views(230)  Comments(0Edit  收藏  举报