SPARK ON YARN

最近毕设需要用到 Spark 集群，所以就记录下了部署的过程。我们知道 Spark 官方提供了三种集群部署方案： Standalone, Mesos, YARN。其中 Standalone 最为方便，本文主要讲述结合 YARN 的部署方案。

软件环境：

Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)
Hadoop: 2.6.0
Spark: 1.3.0

0 写在前面

本例中的演示均为非 root 权限，所以有些命令行需要加 sudo，如果你是 root 身份运行，请忽略 sudo。下载安装的软件建议都放在 home 目录之上，比如~/workspace中，这样比较方便，以免权限问题带来不必要的麻烦。

1. 环境准备

修改主机名

我们将搭建1个master，2个slave的集群方案。首先修改主机名vi /etc/hostname，在master上修改为master，其中一个slave上修改为slave1，另一个同理。

配置hosts

在每台主机上修改host文件

vi /etc/hosts

10.1.1.107 master
10.1.1.108 slave1
10.1.1.109 slave2

配置之后ping一下用户名看是否生效

ping slave1
ping slave2

SSH 免密码登录

安装Openssh server

sudo apt-get install openssh-server

在所有机器上都生成私钥和公钥

ssh-keygen -t rsa #一路回车

需要让机器间都能相互访问，就把每个机子上的id_rsa.pub发给master节点，传输公钥可以用scp来传输。

scp ~/.ssh/id_rsa.pub spark@master:~/.ssh/id_rsa.pub.slave1

在master上，将所有公钥加到用于认证的公钥文件authorized_keys中

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

将公钥文件authorized_keys分发给每台slave

scp ~/.ssh/authorized_keys spark@slave1:~/.ssh/

在每台机子上验证SSH无密码通信

ssh master
ssh slave1
ssh slave2

如果登陆测试不成功，则可能需要修改文件authorized_keys的权限（权限的设置非常重要，因为不安全的设置安全设置,会让你不能使用RSA功能）

chmod 600 ~/.ssh/authorized_keys

安装 Java

从官网下载最新版 Java 就可以，Spark官方说明 Java 只要是6以上的版本都可以，我下的是 jdk-7u75-linux-x64.gz
在~/workspace目录下直接解压

tar -zxvf jdk-7u75-linux-x64.gz

修改环境变量sudo vi /etc/profile，添加下列内容，注意将home路径替换成你的：

export WORK_SPACE=/home/spark/workspace/
export JAVA_HOME=$WORK_SPACE/jdk1.7.0_75
export JRE_HOME=/home/spark/work/jdk1.7.0_75/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

然后使环境变量生效，并验证 Java 是否安装成功

$ source /etc/profile #生效环境变量
$ java -version #如果打印出如下版本信息，则说明安装成功
java version '1.7.0_75'
Java(TM) SE Runtime Environment (build 1.7.0_75-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

安装 Scala

Spark官方要求 Scala 版本为 2.10.x，注意不要下错版本，我这里下了 2.10.4，官方下载地址（可恶的天朝大局域网下载 Scala 龟速一般）。

同样我们在~/workspace中解压

tar -zxvf scala-2.10.4.tgz

再次修改环境变量sudo vi /etc/profile，添加以下内容：

export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

同样的方法使环境变量生效，并验证 scala 是否安装成功

$ source /etc/profile #生效环境变量
$ scala -version #如果打印出如下版本信息，则说明安装成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

安装配置 Hadoop YARN

下载解压

从官网下载 hadoop2.6.0 版本，这里给个我们学校的镜像下载地址。

同样我们在~/workspace中解压

tar -zxvf hadoop-2.6.0.tar.gz

配置 Hadoop

cd ~/workspace/hadoop-2.6.0/etc/hadoop进入hadoop配置目录，需要配置有以下7个文件：hadoop-env.sh，yarn-env.sh，slaves，core-site.xml，hdfs-site.xml，maprd-site.xml，yarn-site.xml

在hadoop-env.sh中配置JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75
在yarn-env.sh中配置JAVA_HOME

# some Java parameters
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75
在slaves中配置slave节点的ip或者host，

slave1
slave2
修改core-site.xml

fs.defaultFS
hdfs://master:9000/

hadoop.tmp.dir
file:/home/spark/workspace/hadoop-2.6.0/tmp

修改hdfs-site.xml

dfs.namenode.secondary.http-address
master:9001

dfs.namenode.name.dir
file:/home/spark/workspace/hadoop-2.6.0/dfs/name

dfs.datanode.data.dir
file:/home/spark/workspace/hadoop-2.6.0/dfs/data

dfs.replication
3

修改mapred-site.xml

configuration>
property>
name>mapreduce.framework.namename>
value>yarnvalue>
property>
configuration>

修改yarn-site.xml

configuration>
property>
name>yarn.nodemanager.aux-servicesname>
value>mapreduce_shufflevalue>
property>
property>
name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
value>org.apache.hadoop.mapred.ShuffleHandlervalue>
property>
property>
name>yarn.resourcemanager.addressname>
value>master:8032value>
property>
property>
name>yarn.resourcemanager.scheduler.addressname>
value>master:8030value>
property>
property>
name>yarn.resourcemanager.resource-tracker.addressname>
value>master:8035value>
property>
property>
name>yarn.resourcemanager.admin.addressname>
value>master:8033value>
property>
property>
name>yarn.resourcemanager.webapp.addressname>
value>master:8088value>
property>
configuration>

将配置好的hadoop-2.6.0文件夹分发给所有slaves吧

scp -r ~/workspace/hadoop-2.6.0 spark@slave1:~/workspace/

启动 Hadoop

在 master 上执行以下操作，就可以启动 hadoop 了。

cd ~/workspace/hadoop-2.6.0 #进入hadoop目录
bin/hadoop namenode -format #格式化namenode
sbin/start-dfs.sh #启动dfs
sbin/start-yarn.sh #启动yarn

验证 Hadoop 是否安装成功

可以通过jps命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程：

$ jps #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps

在每个slave上应该有以下几个进程：

$ jps #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode

或者在浏览器中输入 http://master:8088 ，应该有 hadoop 的管理界面出来了，并能看到 slave1 和 slave2 节点。

Spark安装

下载解压

进入官方下载地址下载最新版 Spark。我下载的是 spark-1.3.0-bin-hadoop2.4.tgz。

在~/workspace目录下解压

tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz
mv spark-1.3.0-bin-hadoop2.4 spark-1.3.0 #原来的文件名太长了，修改下

配置 Spark

cd ~/workspace/spark-1.3.0/conf #进入spark配置目录
cp spark-env.sh.template spark-env.sh #从配置模板复制
vi spark-env.sh #添加配置内容

在spark-env.sh末尾添加以下内容（这是我的配置，你可以自行修改）：

export SCALA_HOME=/home/spark/workspace/scala-2.10.4
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75
export HADOOP_HOME=/home/spark/workspace/hadoop-2.6.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/home/spark/workspace/spark-1.3.0
SPARK_DRIVER_MEMORY=1G

注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。

vi slaves在slaves文件下填上slave主机名：

slave1
slave2

将配置好的spark-1.3.0文件夹分发给所有slaves吧

scp -r ~/workspace/spark-1.3.0 spark@slave1:~/workspace/

启动Spark

sbin/start-all.sh

验证 Spark 是否安装成功

用jps检查，在 master 上应该有以下几个进程：

$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager

在 slave 上应该有以下几个进程：

$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager

进入Spark的Web管理页面： http://master:8080

运行示例

#本地模式两线程运行
./bin/run-example SparkPi 10 --master local[2]

#Spark Standalone 集群模式运行
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
lib/spark-examples-1.3.0-hadoop2.4.0.jar \
100

#Spark on YARN 集群上 yarn-cluster 模式运行
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \ # can also be `yarn-client`
lib/spark-examples*.jar \
10

posted on 2017-09-13 10:23 舟岩阅读(138) 评论(0) 编辑收藏举报

刷新页面返回顶部

舟岩

SPARK ON YARN

0 写在前面

1. 环境准备

修改主机名

配置hosts

SSH 免密码登录

安装 Java

安装 Scala

安装配置 Hadoop YARN

下载解压

配置 Hadoop

启动 Hadoop

验证 Hadoop 是否安装成功

Spark安装

下载解压

配置 Spark

启动Spark

验证 Spark 是否安装成功

运行示例

公告

导航