2.Hadoop集群搭建

首先我们要完成SSH无密码通信等内容，见上篇文章《Hadoop环境初步搭建》

后两篇文章是关于《Hadoop下实例程序测试》，这些文章都是无缝衔接的哈~

在master这台机器上安装Hadoop 2.2.0,Hadoop 2.2.0的下载地址为：

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.2.0/

//( https://archive.apache.org/dist/hadoop/common/hadoop-2.2.0/)

我们下载的是“hadoop-2.2.0.tar.gz ”，如下图所示：

在master上创建目录/usr/local/hadoop

将下载的文件hadoop-2.2.0.tar.gz 通过U盘拷贝到master的该目录下

在slave1和slave2上面也创建/usr/local/hadoop目录

接下来在master节点上配置单机hadoop，配置完成后将配置拷贝到slave1和slave2上即可完成集群搭建

在master上，进入/usr/local/hadoop，解压hadoop-2.2.0.tar.gz

接下来在hadoop目录下按照如下命令创建文件夹：

接下来开始修改hadoop的配置文件，首先进入Hadoop 2.2.0配置文件区：

(/usr/local/hadoop/hadoop-2.2.0/etc/hadoop)

第一步修改配置文件hadoop-env.sh，在其中加入“JAVA_HOME”，如下所示：

指定我们安装的“JAVA_HOME”，修改为如下所示内容：

第二步修改配置文件yarn-env.sh，在其中加入“JAVA_HOME”，如下所示：

指定我们安装的“JAVA_HOME”，修改为下图：

第三步修改配置文件mapred-env.sh，在其中加入“JAVA_HOME”，如下所示：

指定我们安装的“JAVA_HOME”，如下图所示：

第四步修改配置文件slaves，如下所示：

我们设置Hadoop集群中的从节点为slave1和slave2，把slaves文件的内容修改为：

第五步修改配置文件core-site.xml，如下所示：

把core-site.xml文件的内容修改为：

上述是core-site.xml文件的最小化配置，core-site.xml各项配置可参考：

http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

第六步修改配置文件hdfs-site.xml，如下所示：

把hdfs-site.xml文件的内容修改为如下：

上述是hdfs-site.xml文件的最小化配置，hdfs-site.xml各项配置课参考：

http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

第七步修改配置文件mapred-site.xml，如下所示：

拷贝一份mapred-site.xml.template命名为mapred-site.xml

打开mapred-site.xml

把mapred-site.xml文件的内容修改为：

上述是mapred-site.xml最小化配置，mapred-site.xml各项配置可参考：

http://hadoop.apache.org/docs/r2.2.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

第八步修改配置文件yarn-site.xml，如下所示：

把yarn-site.xml的内容修改为：

注意：在主机名前面多空格大错特错

上述内容是yarn-site.xml的最小化配置，yarn-site.xml文件配置的各项内容可以参考：

http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

使用scp命令把master上安装和配置的Hadoop的各项内容拷贝到slave1和slave2上

最后分别在三台机器上配置/etc/profile和~/.bashrc：

修改系统配置文件，修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中，修改完后使用source命令使配置生效。

以master为例：

（1）修改/etc/profile

在末尾加上如下语句，保存并退出：

使用source命令让配置生效

（2）修改~/.bashrc

修改为如下，保存并退出：

使用source命令让配置生效

在另外两台机器上也做同样更改（slave1、slave2）。

注：系统配置文件最好是手动更改，不要在机器中互相拷贝，以免出现系统崩溃。

启动并验证Hadoop分布式集群

第一步：格式化hdfs文件系统：

进入bin目录下

输入如下格式化命令

第二步：进入sbin中启动hdfs，执行如下命令：

启动过程如下：

输入yes继续。

启动完成后，输入jps可以发现，master上启动了NameNode和SecondaryNameNode；

在slave1和slave2上均启动了DataNode：

此时访问http://master:50070 登录Web控制可以查看HDFS集群的状况：

从控制台我们可以看见有两个DataNode，此时我们点击“Live Nodes”查看一下其信息：

从控制台中看到了我们的两个Datanode节点slave1和slave2，这正是我们预期中的！

第三步启动yarn集群

使用jps命令可以发现master机器上启动了ResourceManager进程：

而在slave1和slave2上则分别启动了NodeManager进程：

在master上访问http://master:8088 可以通过Web控制台查看ResourceManager运行状态：

在slave1上访问http://slave1:8042 可以通过Web控制台查看slave1上的NodeManager运行状态：

在slave2上访问http://slave2:8042 可以通过Web控制台查看slave2上的NodeManager运行状态：

posted on 2015-07-11 18:53 Satchmo丶阅读(701) 评论(0) 收藏举报

刷新页面返回顶部