Spark安装过程纪录
1 Scala安装
1.1 master 机器
修改 scala 目录所属用户和用户组。
sudo chown -R hadoop:hadoop scala
修改环境变量文件 .bashrc , 添加以下内容。
# Scala Env
export SCALA_HOME=/home/hadoop/opt/scala
export PATH=$PATH:$SCALA_HOME/bin
运行 source .bashrc 使环境变量生效。
验证 Scala 安装
$scala
scala > 1+1
1.2 Slaver机器
参照 master 机器安装步骤进行安装。
2 Spark安装
2.1 master 机器
修改 spark目录所属用户和用户组。
chown -R hadoop:hadoop spark
修改环境变量文件 .bashrc , 添加以下内容。
# Spark Env
export SPARK_HOME=/home/hadoop/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
运行 source .bashrc 使环境变量生效。
修改配置文件
进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.template 到 spark-env.sh。
cp spark-env.sh.template spark-env.sh
编辑 spark-env.sh,在其中添加以下配置信息:
export SCALA_HOME=/home/hadoop/opt/scala
export JAVA_HOME=/home/hadoop/opt/java/jdk1.8
export SPARK_MASTER_IP=192.168.109.137
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/home/hadoop/opt/hadoop/etc/hadoop
- JAVA_HOME 指定 Java 安装目录;
- SCALA_HOME 指定 Scala 安装目录;
- SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址;
- SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小;
- HADOOP_CONF_DIR 指定 Hadoop 集群配置文件目录。
将 slaves.template 拷贝到 slaves, 编辑其内容为:
Slaver1
如果在slaves中有Master,即 Master 既是 Master 节点又是 Worker 节点。(怎么规划需根据实际需求进一步考量)
2.2 slave机器
参照 master 机器安装步骤进行安装。
2.3 启动 Spark 集群
2.3.1 启动 Master 节点
运行 start-master.sh,结果可以看到 master 上多了一个新进程 Master。
2.3.2 启动所有 Worker 节点
运行 start-slaves.sh, 运行结果在slaves内设定的节点上使用 jps 命令,可以发现都启动了一个 Worker 进程。
2.4 验证安装
2.4.1 WEB UI
浏览器查看 Spark 集群信息
2.4.2 运行spark-shell
执行些什么都行。
2.4.3 浏览器访问 SparkUI
2.5 停止 Spark 集群
2.5.1 停止 Master 节点
运行 stop-master.sh 来停止 Master 节点。使用 jps 命令查看当前 java 进程,可以发现 Master 进程已经停止。
2.5.2 停止 Worker 节点
运行 stop-slaves.sh 可以停止所有的 Worker 节点。使用 jps 命令查看进程信息。可以看到, Worker 进程均已停止,最后再停止 Hadoop 集群。