[会装]Spark standalone 模式的安装

1. 简介

　　以standalone模式安装spark集群bin运行demo。

2.环境和介质准备

　　2.1 下载spark介质，根据现有hadoop的版本选择下载，我目前的环境中的hadoop版本是2.6，所以下载spark-2.0.0-bin-hadoop2.6.tgz

　　当然你也可以下载源码自行根据hadoop版本进行编译，这里不再赘述。

　　地址：http://ftp.cuhk.edu.hk/pub/packages/apache.org/spark/spark-2.0.0/

　　2.2 环境准备　　

主机名称	进程名称
xufeng-1	work
xufeng-2	work
xufeng-3	master

3. 安装步骤：

　　【以下步骤不单独说明所有主机都需要执行】

　　步骤 1：将介质包拷贝到服务器上，并将配置文件和bin文件分开。

　　可以看到spark目录使用了软连接，配置文件被单独放在了spark-config中，这样做的目的是便于升级。

　　步骤 2：设定环境变量.

　　在~/.bash_profile文件中增加如下信息：

#spark
export SPARK_HOME=/opt/hadoop/spark
export SPARK_CONF_DIR=/opt/hadoop/spark-config

PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

　　步骤 3：配置slaves：

　　　打开spark-config目录下的slaves文件将work部署的主机名信息写入：

# A Spark Worker will be started on each of the machines listed below.
xufeng-1
xufeng-2

　　步骤 4：配置javahome

　　　　打开spark-config目录下的spark-env.sh文件，设定如下信息（根据自己的java路径信息）：

# - SPARK_NICENESS      The scheduling priority for daemons. (Default: 0)
export JAVA_HOME=/opt/hadoop/java/jdk1.7.0_79

4. 启动集群　

　　4.1 登录上master节点，也就是xufeng-3节点，进入spark/sbin目录，执行

./start-all.sh       ------- spark的脚本和hadoop的脚本是同名的，如果我们直接执行start-all.sh，那么很有可能执行的是hadoop的脚本，所以这里进入spark安装目录，具体调用他的脚本

　　4.2 检查Master 的 webUI

以上Mater和worker在standalone模式中就是一个资源管理器系统，分配app的资源使用或者我们可以直接说他是一个【Cluster Manager】。

在其他模式中，如在YARN模式中资源的分配就交给YARN去处理，YARN集群就是【Cluster Manager】角色了。

5. 验证

　　进入spark-shell 简单的去执行一个任务用于验证　　

　　如果不知道后续参数，那么这个shell将会在本地执行，在Mater页面上是看不到信息的。

spark-shell --master spark://xufeng-3:7077 --executor-memory 500M

　　1.创建一个rdd　　

scala> val rdd = sc.parallelize(List(1,2,3,4,5,6))

　　2.执行两次count和一次collect操作（action操作）

scala> rdd.count()
res0: Long = 6

scala> rdd.count()
res1: Long = 6

scala> rdd.collect
res2: Array[Int] = Array(1, 2, 3, 4, 5, 6)

　　查看页面监控：

以上，standalone模式安装完毕。

posted on 2016-10-26 14:38 xf-xrh-xf 阅读(222) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

小马过溪

[会装]Spark standalone 模式的安装

导航

公告