Spark 2.0-集群环境搭建:虚拟机、CentOS、Hadoop、Spark

一、虚拟机安装

1、使用课程提供的CentOS 6.5镜像即可,CentOS-6.5-i386-minimal.iso。

2、创建虚拟机:打开Virtual Box,点击“新建”按钮,点击“下一步”,输入虚拟机名称为spark2upgrade01,选择操作系统为Linux,选择版本为Red Hat,分配4096MB内存,后面的选项全部用默认,在Virtual Disk File location and size中,一定要自己选择一个目录来存放虚拟机文件,最后点击“create”按钮,开始创建虚拟机。

3、设置虚拟机网卡:选择创建好的虚拟机,点击“设置”按钮,在网络一栏中,连接方式中,选择“Bridged Adapter”。

4、安装虚拟机中的CentOS 6.5操作系统:选择创建好的虚拟机,点击“开始”按钮,选择安装介质(即本地的CentOS 6.5镜像文件),选择第一项开始安装-Skip-欢迎界面Next-选择默认语言-Baisc Storage Devices-Yes, discard any data-主机名:spark2upgrade-选择时区-设置初始密码为hadoop-Replace Existing Linux System-Write changes to disk-CentOS 6.5自己开始安装。

5、安装完以后,CentOS会提醒你要重启一下,就是reboot,你就reboot就可以了。

二、配置网络

vi /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE=eth0

TYPE=Ethernet

ONBOOT=yes

BOOTPROTO=dhcp

service network restart

ifconfig

BOOTPROTO=static

IPADDR=192.168.0.X

NETMASK=255.255.255.0

GATEWAY=192.168.0.1

service network restart vi /etc/hosts

配置本机的hostname到ip地址的映射 此时就可以使用SecureCRT从本机连接到虚拟机进行操作了

三、关闭防火墙

service iptables stop

service ip6tables stop

chkconfig iptables off

chkconfig ip6tables off

vi /etc/selinux/config

SELINUX=disabled

关闭windows的防火墙

四、安装yum

yum clean all

yum makecache

yum install telnet

五、安装JDK

1、将jdk-7u60-linux-i586.rpm通过WinSCP上传到虚拟机中

2、安装JDK:rpm -ivh jdk-7u65-linux-i586.rpm

3、配置jdk相关的环境变量

vi /etc/profile

export JAVA_HOME=/usr/java/latest

export PATH=$PATH:$JAVA_HOME/bin

source /etc/profile

4、测试jdk安装是否成功:java -version

六、安装Hadoop

1、使用课程提供的hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。

2、将hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz

3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop

4、配置hadoop相关环境变量

vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

5、在/usr/local目录下创建data目录

修改core-site.xml配置文件

<configuration>

   <property>
    <name>fs.defaultFS</name>
    <value>hdfs://spark2upgrade:8020</value>
   </property>

   <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/data/tmp</value>
   </property>

 </configuration>

修改hdfs-site.xml配置文件

<configuration>

    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>spark2upgrade:50090</value>
    </property>
    <property>
      <name>dfs.permissions.enabled</name>
      <value>false</value>
    </property>

  </configuration>

 

修改mapred-site.xml配置文件

<configuration>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>spark2upgrade:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>spark2upgrade:19888</value>
</property>
</configuration>

修改yarn-site.xml配置文件

<configuration>

<property>
<name>yarn.resourcemanager.hostname</name>
<value>spark2upgrade</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

修改slaves配置文件

spark2upgrade

启动hdfs集群

1、格式化namenode:在spark2upgrade上执行以下命令hdfs namenode -format

2、启动hdfs集群:start-dfs.sh

3、验证启动是否成功:jps、50070端口

spark2upgrade01:namenode、datanode、secondarynamenode

七、安装Hive

1、将课程提供的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。

2、解压缩hive安装包:tar -zxvf apache-hive-0.13.1-bin.tar.gz。

3、重命名hive目录:mv apache-hive-0.13.1-bin hive

4、配置hive相关的环境变量

vi /etc/profile

export HIVE_HOME=/usr/local/hive

export PATH=$HIVE_HOME/bin

source /etc/profile

安装mysql

1、在spark2upgrade上安装mysql。

2、使用yum安装mysql server。

yum install -y mysql-server

service mysqld start

chkconfig mysqld on

3、使用yum安装mysql connector

yum install -y mysql-connector-java

4、将mysql connector拷贝到hive的lib包中

cp /usr/share/java/mysql-connector-java-5.1.17.jar /usr/local/hive/lib

5、在mysql上创建hive元数据库,并对hive进行授权

create database if not exists hive_metadata;

grant all privileges on hive_metadata.* to 'hive'@'%' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'localhost' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'spark2upgrade' identified by 'hive';

flush privileges;

use hive_metadata;

修改hive-site.xml配置文件

mv hive-default.xml.template hive-site.xml

vi hive-site.xml

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://spark2upgrade:3306/hive_metadata?createDatabaseIfNotExist=true</value>

</property>

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>hive</value>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>hive</value>

</property>

配置hive-env.sh和hive-config.sh

mv hive-env.sh.template hive-env.sh

vi /usr/local/hive/bin/hive-config.sh

export JAVA_HOME=/usr/java/latest

export HIVE_HOME=/usr/local/hive

export HADOOP_HOME=/usr/local/hadoop

验证安装是否成功

直接输入hive命令,可以进入hive命令行

八、安装scala

1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对scala-2.11.4.tgz进行解压缩:tar -zxvf scala-2.11.4.tgz。

3、对scala目录进行重命名:mv scala-2.11.4 scala

4、配置scala相关的环境变量

vi /etc/profile

export SCALA_HOME=/usr/local/scala

export PATH=$SCALA_HOME/bin

source /etc/profile

5、查看scala是否安装成功:scala -version 。

九、安装spark2.0

1、将spark-2.0.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。自己在http://spark.apache.org/downloads.html上下载即可。

2、解压缩spark包:tar zxvf spark-2.0.0-bin-hadoop2.4.tgz。

3、更改spark目录名:mv spark-2.0.0-bin-hadoop2.4.tgz spark

4、设置spark环境变量

vi /etc/profile

export SPARK_HOME=/usr/local/spark

export PATH=$SPARK_HOME/bin

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

source /etc/profile

配置spark-env.sh

1、cd /usr/local/spark/conf

2、cp spark-env.sh.template spark-env.sh

3、vi spark-env.sh

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/usr/local/scala

export SPARK_MASTER_HOST=spark2upgrade

export SPARK_WORKER_MEMORY=500m

#export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

配置slaves

spark2upgrade

配置spark可以使用hive

1、将hive-site.xml放置到spark的conf目录下

2、修改spark/conf和hive/conf下的

hive-site.xml

<property>

<name>hive.metastore.uris</name>

<value>thrift://spark2upgrade:9083</value>

</property>

3、启动hive metastore service hive --service metastore &

4、cp hive/lib/mysql-connector-java-5.1.17.jar spark/jars/

5、hdfs dfs -chmod 777 /tmp/hive-root

启动spark

1、在spark目录下的sbin目录

2、执行./start-all.sh

3、使用jsp和8080端口可以检查集群是否启动成功

4、进入spark-shell查看是否正常

posted @ 2017-09-28 11:26  Herve  阅读(274)  评论(0编辑  收藏  举报