Spark 2.0-集群环境搭建：虚拟机、CentOS、Hadoop、Spark

一、虚拟机安装

1、使用课程提供的CentOS 6.5镜像即可，CentOS-6.5-i386-minimal.iso。

2、创建虚拟机：打开Virtual Box，点击“新建”按钮，点击“下一步”，输入虚拟机名称为spark2upgrade01，选择操作系统为Linux，选择版本为Red Hat，分配4096MB内存，后面的选项全部用默认，在Virtual Disk File location and size中，一定要自己选择一个目录来存放虚拟机文件，最后点击“create”按钮，开始创建虚拟机。

3、设置虚拟机网卡：选择创建好的虚拟机，点击“设置”按钮，在网络一栏中，连接方式中，选择“Bridged Adapter”。

4、安装虚拟机中的CentOS 6.5操作系统：选择创建好的虚拟机，点击“开始”按钮，选择安装介质（即本地的CentOS 6.5镜像文件），选择第一项开始安装-Skip-欢迎界面Next-选择默认语言-Baisc Storage Devices-Yes, discard any data-主机名:spark2upgrade-选择时区-设置初始密码为hadoop-Replace Existing Linux System-Write changes to disk-CentOS 6.5自己开始安装。

5、安装完以后，CentOS会提醒你要重启一下，就是reboot，你就reboot就可以了。

二、配置网络

vi /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE=eth0

TYPE=Ethernet

ONBOOT=yes

BOOTPROTO=dhcp

service network restart

ifconfig

BOOTPROTO=static

IPADDR=192.168.0.X

NETMASK=255.255.255.0

GATEWAY=192.168.0.1

service network restart vi /etc/hosts

配置本机的hostname到ip地址的映射此时就可以使用SecureCRT从本机连接到虚拟机进行操作了

三、关闭防火墙

service iptables stop

service ip6tables stop

chkconfig iptables off

chkconfig ip6tables off

vi /etc/selinux/config

SELINUX=disabled

关闭windows的防火墙

四、安装yum

yum clean all

yum makecache

yum install telnet

五、安装JDK

1、将jdk-7u60-linux-i586.rpm通过WinSCP上传到虚拟机中

2、安装JDK：rpm -ivh jdk-7u65-linux-i586.rpm

3、配置jdk相关的环境变量

vi /etc/profile

export JAVA_HOME=/usr/java/latest

export PATH=$PATH:$JAVA_HOME/bin

source /etc/profile

4、测试jdk安装是否成功：java -version

六、安装Hadoop

1、使用课程提供的hadoop-2.4.1.tar.gz，使用WinSCP上传到CentOS的/usr/local目录下。

2、将hadoop包进行解压缩：tar -zxvf hadoop-2.4.1.tar.gz

3、对hadoop目录进行重命名：mv hadoop-2.4.1 hadoop

4、配置hadoop相关环境变量

vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

5、在/usr/local目录下创建data目录

修改core-site.xml配置文件

　　　<property>
　　　　<name>fs.defaultFS</name>
　　　　<value>hdfs://spark2upgrade:8020</value>
　　　</property>

　　　<property>
　　　　<name>hadoop.tmp.dir</name>
　　　　<value>/usr/local/hadoop/data/tmp</value>
　　　</property>

　</configuration>

修改hdfs-site.xml配置文件

　　　　<property>
　　　　　　<name>dfs.replication</name>
　　　　　　<value>1</value>
　　　　</property>
　　　　<property>
　　　　　　<name>dfs.namenode.secondary.http-address</name>
　　　　　　<value>spark2upgrade:50090</value>
　　　　</property>
　　　　<property>
　　　　　　<name>dfs.permissions.enabled</name>
　　　　　　<value>false</value>
　　　　</property>

　　</configuration>

修改mapred-site.xml配置文件

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>spark2upgrade:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>spark2upgrade:19888</value>
</property>
</configuration>

修改yarn-site.xml配置文件

<property>
<name>yarn.resourcemanager.hostname</name>
<value>spark2upgrade</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

修改slaves配置文件

spark2upgrade

启动hdfs集群

1、格式化namenode：在spark2upgrade上执行以下命令hdfs namenode -format

2、启动hdfs集群：start-dfs.sh

3、验证启动是否成功：jps、50070端口

spark2upgrade01：namenode、datanode、secondarynamenode

七、安装Hive

1、将课程提供的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。

2、解压缩hive安装包：tar -zxvf apache-hive-0.13.1-bin.tar.gz。

3、重命名hive目录：mv apache-hive-0.13.1-bin hive

4、配置hive相关的环境变量

vi /etc/profile

export HIVE_HOME=/usr/local/hive

export PATH=$HIVE_HOME/bin

source /etc/profile

安装mysql

1、在spark2upgrade上安装mysql。

2、使用yum安装mysql server。

yum install -y mysql-server

service mysqld start

chkconfig mysqld on

3、使用yum安装mysql connector

yum install -y mysql-connector-java

4、将mysql connector拷贝到hive的lib包中

cp /usr/share/java/mysql-connector-java-5.1.17.jar /usr/local/hive/lib

5、在mysql上创建hive元数据库，并对hive进行授权

create database if not exists hive_metadata;

grant all privileges on hive_metadata.* to 'hive'@'%' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'localhost' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'spark2upgrade' identified by 'hive';

flush privileges;

use hive_metadata;

修改hive-site.xml配置文件

mv hive-default.xml.template hive-site.xml

vi hive-site.xml

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://spark2upgrade:3306/hive_metadata?createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

配置hive-env.sh和hive-config.sh

mv hive-env.sh.template hive-env.sh

vi /usr/local/hive/bin/hive-config.sh

export JAVA_HOME=/usr/java/latest

export HIVE_HOME=/usr/local/hive

export HADOOP_HOME=/usr/local/hadoop

验证安装是否成功

直接输入hive命令，可以进入hive命令行

八、安装scala

1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对scala-2.11.4.tgz进行解压缩：tar -zxvf scala-2.11.4.tgz。

3、对scala目录进行重命名：mv scala-2.11.4 scala

4、配置scala相关的环境变量

vi /etc/profile

export SCALA_HOME=/usr/local/scala

export PATH=$SCALA_HOME/bin

source /etc/profile

5、查看scala是否安装成功：scala -version 。

九、安装spark2.0

1、将spark-2.0.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。自己在http://spark.apache.org/downloads.html上下载即可。

2、解压缩spark包：tar zxvf spark-2.0.0-bin-hadoop2.4.tgz。

3、更改spark目录名：mv spark-2.0.0-bin-hadoop2.4.tgz spark

4、设置spark环境变量

vi /etc/profile

export SPARK_HOME=/usr/local/spark

export PATH=$SPARK_HOME/bin

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

source /etc/profile

配置spark-env.sh

1、cd /usr/local/spark/conf

2、cp spark-env.sh.template spark-env.sh

3、vi spark-env.sh

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/usr/local/scala

export SPARK_MASTER_HOST=spark2upgrade

export SPARK_WORKER_MEMORY=500m

#export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

配置slaves

spark2upgrade

配置spark可以使用hive

1、将hive-site.xml放置到spark的conf目录下

2、修改spark/conf和hive/conf下的

hive-site.xml

<name>hive.metastore.uris</name>

<value>thrift://spark2upgrade:9083</value>

</property>

3、启动hive metastore service hive --service metastore &

4、cp hive/lib/mysql-connector-java-5.1.17.jar spark/jars/

5、hdfs dfs -chmod 777 /tmp/hive-root

启动spark

2、执行./start-all.sh

3、使用jsp和8080端口可以检查集群是否启动成功

4、进入spark-shell查看是否正常

posted @ 2017-09-28 11:26 Herve 阅读(274) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Herve的博客

Spark 2.0-集群环境搭建：虚拟机、CentOS、Hadoop、Spark

一、虚拟机安装

二、配置网络

三、关闭防火墙

四、安装yum

五、安装JDK

六、安装Hadoop

修改core-site.xml配置文件

修改hdfs-site.xml配置文件

修改mapred-site.xml配置文件

修改yarn-site.xml配置文件

修改slaves配置文件

启动hdfs集群

七、安装Hive

安装mysql

修改hive-site.xml配置文件

配置hive-env.sh和hive-config.sh

验证安装是否成功

八、安装scala

九、安装spark2.0

配置spark-env.sh

配置slaves

配置spark可以使用hive

启动spark

公告