Spark安装和配置

背景：在现有的hadoop集群上，进行安装Spark

需要准备：hadoop,scala,jdk

spark需要依赖于java运行，所以需要jdk，版本选用2.4.5

scala安装：

必须在jdk安装完毕才安装，下载scala：https://downloads.lightbend.com/scala/2.13.4/scala-2.13.4.tgz

# 解压到指定目录
tar -zxvf  scala-2.13.4.tgz -C /app/scala
# 配置环境变量，增加SCALA_HOME
export SCALA_HOME=/app/scala/scala-2.13.4
export PATH=$PATH:${SCALA_HOME}/bin
# 重新加载环境变量
source /etc/profile
# 查看scale是否安装成功
scala -version

#下载解压spark, 下载地址： https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz 
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz  -C /app/spark
# 配置环境变量，增加SPARK_HOME
export SPARK_HOME=/app/spark/spark-2.4.5-bin-hadoop2.7
export PATH=$PATH:${SPARK_HOME}/bin

进入到Spark的conf目录下，配置文件修改 spark-env.sh

# 拷贝spark-env.sh文件
cp spark-env.sh.template spark-env.sh
# 在最后面增加spark-env配置
    export SCALA_HOME=/app/scala/scala-2.13.4
    export JAVA_HOME=/app/jdk/jdk1.8.0_211
    # 指定主节点地址
    export SPARK_MASTER_HOST=master
    export  HADOOP_HOME=/app/hadoop/hadoop-2.7.7

修改slaves

# 拷贝slaves
cp slaves.template slaves
# 增加从节点地址(ip或者hsots)
slave1slave2

配置完毕拷贝spark目录到2个从节点,拷贝完毕配置环境变量

scp -r /app/spark root@hadoop-slave-01:/app
scp -r /app/spark root@hadoop-slave-02:/app
# 参考上面环境变量的配置

spark启动和验证

因为spark需要使用yarn做资源调度，所以需要先启动hadoop的yarn或hadoop的全部

进入到spark的sbin目录，启动spark

./start-all.sh

可以看到主节点和从节点都开始启动

验证成功

方式一：

jps查看java进程，spark主进程为master，工作进程为worker

master节点的jps：

slave-01的jps:

方式二：

spark默认使用8080对外提供web管理界面(master的8080),如下图所示:

上图也显示了worker的相关信息

posted @ 2021-03-09 14:46 欣欣姐 Views(230) Comments(0) Edit 收藏举报

刷新页面返回顶部

欣欣姐

Spark安装和配置

公告