Spark1.5.1环境搭建
最近在学习Spark的相关内容,作为一名初学者,希望和大家一起分享一些学习心得和操作经验,有不对的地方希望指正。
系统是64位的ubuntu1。
(注:笔者习惯于直接上官网上下文件,然后配置路径,我觉得这样方便,也可以用ubuntu的工具,apt-get install)
一、配置Spark的Standalone模式。
1.Ubuntu环境配置:
(1)安装JDK,下载Java SE版本,可以是最新版,解压到/opt/java目录(也可以是其他目录)下:
http://www.oracle.com/technetwork/java/javase/downloads/index.html
(2)安装scala,下载scala-2.11.6.tgz,解压到/opt/scala:
( http://www.scala-lang.org/ ,你可以下载最新版本的)
(3)安装Spark,下载预编译软件包,解压到/opt/spark-hadoop
(注意如果下载如下版本:
会有缺少部分jar包,需要自己添加)
2.添加环境变量:
配置环境变量,编辑/etc/profile,执行以下命令:
sudo vim /etc/profile
在文件末尾最增加:
重启电脑(或者虚拟机),使/etc/profile永久生效。如果需要临时生效,打开命令窗口,执行 source /etc/profile 在当前窗口生效 。
(注:为什么修改/etc/profile,这个网上挺多介绍,Linux的环境变量配置,这里就不赘述了)
3.打开命令窗口,切换到Spark根目录:
4.修改配置文件:
在$SPARK_HOME/conf目录下
利用cp命令,从template中,copy一个spark-env.sh。(env就是environment的缩写,配置该文件,就是配置spark的环境变量)
在文件末尾添加如下语句:
5.启动spark-shell:
(可能报错:JAVA_HOME is not set,则在spark-env.sh中export一个JAVA_HOME变量,指向你的jdk安装路径)
6.运行成功:
二、Spark连上hadoop-yarn。
1.下载hadoop预编译文件:
http://hadoop.apache.org/releases.html
(注:不同的spark支持不同的hadoop版本,在官网上有标明)
2.在/etc/profile中配置文件:
3.修改配置文件:
在$SPARK_HOME/conf目录下,修改spark-env.sh文件:
用HADOOP_CONF_DIR指向hadoop安装路径下的./etc/hadoop目录下。
4.运行成功。