Vmare 搭建Hadoop2.0-Yarn 集群

Hadoop是apache一个开源的分布式计算项目，从开源后就备受各个技术大拿关注，我记得第一次听说还是在11年左右，当时Inte中国l有个HAdoop的实验项目，邀我一起去搞，各种原因吧，与之擦肩而过，如今已过而立之年，有点自己的时间，重新作为一个小白对其进行学习。本文是对两周的学习一个总结，如有不当，敬请赐教。

首先对于hadoop进行一个集群环境搭建。

一、环境准备

由于本人是学习和研究为主，暂时没有很多物理机器使用，所以所有的操作都是基于VMware虚拟机环境下的操作：

1）、Vmware这个就不用说了，可以最小成本的满足我们各种开发环境和集群环境的需求。

2）、Linux-ubuntu-16.04.2 个人使用的 ubuntu，据基友介绍 ubuntu更适合学习，因为很多需要的开发环境如，SSH、VIM通过 sudo apt-get install XXX ，

迅速下载到，减少我们学习时间成本。--本人不是linux专家，只是个人看法。

3）、JDK和 Hadoop。个人建议这个两个都去官网下载最新的版本，并查看一下版本兼容情况。本文里是jdk1.8和 hadoop 2.7.3.

二、集群规划

根据网上的课程规划四台用于搭建集群的服务器，具体信息如下

机器IP	机器名	集群服务类型	备注
192.168.2.217	SY-0217	NameNode1（Active NameNode）	配置越高越好，其运算负荷量大
192.168.2.155	SY-0355	NameNode2（Standy NameNode）/Journal Name	为了节约资源放到一台，大家也可以把他分开
192.168.2.225	SY-0226	Journal Name	dataNode资源可以分少点
192.168.2.226	SY-0226	Journal Name	dataNode资源可以分少点

三、linux安装以及配置

linux主要配置有静态iP配置、Hosts、安装JDK和Hadoop，并开放防火墙端口、ssh免密登陆。

Step 1、配置网络地址

参考代码

sudo vim /etc/network/interfaces
##配置网络IP地址
sudo vim  
#the primay netowrk interface
auto ens33
iface ens33 inet static
address 192.168.18.217
netmask 255.255.255.0
gateway 192.168.18.2

Step 2、配置Hosts

参考代码

sudo vim /etc/hosts
##host 文件 
192.168.18.155 SY-0355
192.168.18.217 SY-0217
192.168.18.225 SY-0225
192.168.18.226 SY-0226

step 3、关闭防火墙或者开放端口

## 关闭防火墙或者开放端口

sudo ufw disable

Step 4、安装 JDK 1.8

## 安装 JDK 1.8
 tar -zxvf jdk-8u131-linux-x64.tar.gz

Step 5、安装Hadoop

## 安装 hadoop
 tar -zxvf hadoop-2.7.3.tar.gz

完成以上安装和配置后可以负责Vmware镜像为4份，并根据规划修改IP地址。

四、Hadoop 配置

hadoop配置主要包括 JDK、core-site.xml 、mapred-site.xml、hdfs-site.xml 、yarn-site.xml、slaves、fairscheduler.xml

Step 1-3 、JDk、core_site.xml 配置参考代码

Step 3、 mapred-site.xml 配置参考代码。

Step 4、hdfs-site.xml 该部分配置比较核心，建议大家第一次配置手敲一边，印象会比较深刻

Step 5 yarn-site.xml 配置建议根据参考代码手敲

Step 6-7 、slaves配置和 fairscheduler.xml 参考代码

Step 8 、向各个节点同步配置文件

##step 1.8 同步hadoop 配置文件
scp etc/hadoop/* wwllkk@SY-0217:/home/wwllkk/hadoop/hadoop-2.7.3/etc/hadoop
scp etc/hadoop/* wwllkk@SY-0225:/home/wwllkk/hadoop/hadoop-2.7.3/etc/hadoop
scp etc/hadoop/* wwllkk@SY-0226:/home/wwllkk/hadoop/hadoop-2.7.3/etc/hadoop

五、启动脚本参考代码

#########################STEP 2 hadoop 集群启动篇########################################

## step 2.1 启动 journalNode SY-0355 SY-0225 SY-0226

  sbin/hadoop-daemon.sh start journalnode
  
  sbin/hadoop-daemon.sh stop journalnode
 ###-------启动 NameNode---------------- 
 ## step 2.2 在【nn1】上对其格式化，并启动； SY-0217
 
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
  
## step 2.3  在 【nn2】上，格式化并同步nn1的元数据信息, SY-0355

bin/hdfs namenode -bootstrapStandby

## step 2.4  启动 【nn2】 SY-0355

sbin/hadoop-daemon.sh start namenode

##经过以上步骤，nn1和nn2都是standby状态

## step 2.5  切换【nn1】为active SY-0217
hdfs haadmin -transitionToActive nn1 

 ###-------启动 DataNode ----------------  sy-0225,sy-0226
## step 2.6 在【nn1】上启动所有的 DataNode
sbin/hadoop-daemon.sh start datanode

## ---------关闭hadoop集群---------
### step end 在【nn1】上执行以下命令
sbin/stop-dfs.sh

posted @ 2017-05-08 18:45 hadoop-wwllkk 阅读(123) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Vmare 搭建Hadoop2.0-Yarn 集群

公告