Spark 集群搭建

0. 说明

　　Spark 集群搭建

　　【集群规划】

服务器主机名	ip	节点配置
s101	192.168.23.101	Master
s102	192.168.23.102	Worker
s103	192.168.23.103	Worker
s104	192.168.23.104	Worker

1. Spark 集群搭建

　　1.0 前提

　　完成 Spark 单节点的安装，参照 Spark 基本概念 & 安装安装部分

　　基于 Hadoop 完全分布式集群

　　1.1 配置 JAVA_HOME 环境变量

# 复制 spark-env.sh
cd /soft/spark/conf
cp spark-env.sh.template spark-env.sh

# 配置 JAVA_HOME 环境变量

nano spark-env.sh

export JAVA_HOME=/soft/jdk

　　1.2 在 Spark 的 conf 目录下创建 Hadoop 的 core-site.xml 和 hdfs-site.xml 符号连接

ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml

　　1.3 修改 slaves 文件

# 复制 slaves
cd /soft/spark/conf
cp slaves.template slaves

# 修改 slaves 文件

nano  slaves

s102
s103
s104

　　1.4 分发 Spark

# 分发 Spark 符号链接
xsync.sh /soft/spark

# 分发 Spark 安装目录
xsync.sh /soft/spark-2.1.0-bin-hadoop2.7

　　1.5 分发环境变量

# 切换 root 用户
su root

# 分发环境变量配置文件
xsync.sh /etc/profile

# 退出 root 用户
exit

　　1.6 生效环境变量

# 分别在s102-s104生效环境变量
source /etc/profile

2. 启动 Spark 集群

　　2.1 启动 ZooKeeper

# 在 s101 执行
xzk.sh start

　　2.2 启动 HDFS

start-dfs.sh

　　2.3 启动 Spark

# 进入目录
cd /soft/spark/sbin

# 启动
./start-all.sh

　　2.4 进入 Spark 的 Web UI
　　http://s101:8080

　　2.5 上传文件到 HDFS 中

　　文件内容为以空格分隔的文本。

hdfs dfs -put wc1.txt /

　　2.6 启动 spark shell，连接到 Spark 集群

# 启动 spark shell，连接到 Spark 集群
spark-shell --master spark://s101:7077

# 测试
sc.textFile("/wc1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

3. 配置 s105 作为 Client [可选]

　　【说明】

　　配置 s105 作为 Cluster 模式提交 Spark job

　　【过程】

　　参照以上步骤完成，在有需要的时候配置

posted @ 2018-10-09 14:03 山间一棵松阅读(207) 评论(0) 收藏举报

刷新页面返回顶部

山间一棵松

Yesterday you said tomorrow.

Spark 集群搭建

0. 说明

1. Spark 集群搭建

2. 启动 Spark 集群

3. 配置 s105 作为 Client [可选]

公告