linux系统搭建JDK+SCALA+HADOOP+SPARK
准备工作:1.VMware Workstation Pro 12.0.1
2.CentOS-6.5-x86_64-bin-DVD1.iso
3.jdk-8u151-linux-x64.tar.gz
4.scala-2.12.4.tgz
5.hadoop-2.7.5.tar.gz
6.spark-2.2.1-bin-hadoop2.7.tgz
1.安装VMware Workstation Pro 12.0.1 ,按提示安装即可;
2.安装linux镜像:
(1)打开.VMware Workstation Pro,创新的虚拟机
(2)选择典型安装
(3)选择linux镜像
(4)填写用户信息
(5)填写虚拟机名称
(6)创建磁盘空间
(7)完成安装,创建虚拟机
(8)切换用户root,修改密码
[jun@Master Desktop]$ su jun - -jun是当前用户名,Master是主机名
输入密码
[jun@Master Desktop]$ su - 切换到root用户
输入密码
[root@Master Desktop]# sudo passwd root --设置root密码
(9)修改主机名
(a)[root@Master Desktop]# vi /etc/sysconfig/network
(b)[root@Master Desktop]# vi /etc/hosts
(10)SSH无密码访问
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
验证ssh,# ssh localhost
不需要输入密码即可登录。
3.安装jdk1.8
(1)创建目录
[root@Master Desktop]# mkdir /usr/java --在usr目录下创建java子目录
(2)把jdk-8u151-linux-x64.tar.gz拷到java目录下
(3)解压
[root@Master Desktop]# tar -zxvf jdk-8u151-linux-x64.tar.gz
(4)修改配置文件,配置环境变量
[root@Master Desktop]# vi /etc/profile
在文件最后面添加:
#set java environment
JAVA_HOME=/usr/java/jdk1.8.0_151
JRE_HOME=/usr/java/jdk1.8.0_151/jre
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$PATH:$JAVA_HOME/bin;$JRE_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH
(5)使配置文件生效
[root@Master Desktop]# source /etc/profile
(6)测试是否成功,成功输出版本信息
4.安装scala-2.12.4
(1)创建目录
[root@Master Desktop]# mkdir /usr/scala --在usr目录下创建scala子目录
(2)把scala-2.12.4.tgz拷到scala目录下
(3)解压
[root@Master Desktop]# tar -zxvf scala-2.12.4.tgz
(4)修改配置文件,配置环境变量
[root@Master Desktop]# vi /etc/profile
在文件最后面添加:
#set scala environment
export SCALA_HOME=/usr/scala/scala-2.12.4
export PATH=$PATH:$SCALA_HOME/bin
(5)使配置文件生效
[root@Master Desktop]# source /etc/profile
(6)测试是否成功,成功输出版本信息
5.安装hadoop-2.7.5(单机版)
(1)创建目录
[root@Master Desktop]# mkdir /usr/hadoop --在usr目录下创建scala子目录
(2)把hadoop-2.7.5.tar.gz拷到hadoop目录下
(3)解压
[root@Master Desktop]# tar -zxvf scala-2.12.4.tgz
(4)修改配置文件,配置环境变量
[root@Master Desktop]# vi /etc/profile
在文件最后面添加:
#set hadoop environment
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin
(5)使配置文件生效
[root@Master Desktop]# source /etc/profile
(6)配置hadoop-env.sh
[root@Master Desktop]# vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh
在最后面加上
export JAVA_HOME=/usr/java/jdk1.8.0_151
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_CLASSPATH=$JAVA_HOME/lib/tools.jar
(7)配置yarn-env.sh
[root@Master Desktop]# vi $HADOOP_HOME/etc/hadoop/yarn-env.sh
在最后面加上
export JAVA_HOME=/usr/java/jdk1.8.0_151
(8)配置core-site.xml
[root@Master Desktop]# vi $HADOOP_HOME/etc/hadoop/core-site.xml
加上如下配置:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://Master:9000</value>
<description>HDFS的URI,文件系统://namenode标识:端口号</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/tmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
</property>
</configuration>
(9)配置hdfs-site.xml
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/root/hadoop/hdfs/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/root/hadoop/hdfs/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description>副本个数,配置默认是3,应小于datanode机器数量</description>
</property>
</configuration>
(10)配置mapred-site.xml
[root@Master Desktop]# vi $HADOOP_HOME/etc/hadoop/mapred-site.xml
添加如下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(11)配置yarn-site.xml
[root@Master Desktop]# vi $HADOOP_HOME/etc/hadoop/yarn-site.xml
添加如下配置:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8099</value>
</property>
</configuration>
(12)配置slaves
[root@Master Desktop]# vi $HADOOP_HOME/etc/hadoop/slaves
把localhost 改成Master
(12)HADOOP启动
[root@Master Desktop]# hadoop namenode -format --首次启动格式化节点
[root@Master Desktop]# $HADOOP_HOME/sbin/start-all.sh --开启hadoop所有服务
[root@Master Desktop]# jps --查看进程
如出现如下,则表示启动成功(主要是namenode,datanode):
13813 ResourceManager
13654 SecondaryNameNode
13480 DataNode
13912 NodeManager
14127 Jps
13343 NameNode
若没有出现datanode,则查看日志,如下
2018-01-02 08:47:20,050 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/root/hadoop/hdfs/data/
java.io.IOException: Incompatible clusterIDs in /root/hadoop/hdfs/data: namenode clusterID = CID-89c1409a-c8af-47fd-a590-ec5461824524; datanode clusterID = CID-40d89f27-faae-4a61-8eed-64bc06cce181
那么直需要在目录/root/hadoop/hdfs/name/current中复制version的clusterID到/root/hadoop/hdfs/data/current的version中,保持clusterID一致,然后重启即可
6.安装SPARK
(1)创建目录
[root@Master Desktop]# mkdir /usr/spark --在usr目录下创建spark子目录
(2)把spark-2.2.1-bin-hadoop2.7.tgz拷到spark目录下
(3)解压
[root@Master Desktop]# tar -zxvf spark-2.2.1-bin-hadoop2.7.tgz
(4)修改配置文件,配置环境变量
[root@Master Desktop]# vi /etc/profile
在文件最后面添加:
#set spark environment
export SPARK_HOME=/usr/spark/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
(5)使配置文件生效
[root@Master Desktop]# source /etc/profile
(6)测试是否成功
[root@Master Desktop]# spark-shell
如出现下图,则表示安装配置成功