2.Hadoop集群搭建
首先我们要完成SSH无密码通信等内容,见上篇文章《Hadoop环境初步搭建》
后两篇文章是关于《Hadoop下实例程序测试》,这些文章都是无缝衔接的哈~
在master这台机器上安装Hadoop 2.2.0,Hadoop 2.2.0的下载地址为:
http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.2.0/
//( https://archive.apache.org/dist/hadoop/common/hadoop-2.2.0/)
我们下载的是“hadoop-2.2.0.tar.gz ”,如下图所示:
在master上创建目录/usr/local/hadoop
将下载的文件hadoop-2.2.0.tar.gz 通过U盘拷贝到master的该目录下
在slave1和slave2上面也创建/usr/local/hadoop目录
接下来在master节点上配置单机hadoop,配置完成后将配置拷贝到slave1和slave2上即可完成集群搭建
在master上,进入/usr/local/hadoop,解压hadoop-2.2.0.tar.gz
接下来在hadoop目录下按照如下命令创建文件夹:
接下来开始修改hadoop的配置文件,首先进入Hadoop 2.2.0配置文件区:
(/usr/local/hadoop/hadoop-2.2.0/etc/hadoop)
第一步修改配置文件hadoop-env.sh,在其中加入“JAVA_HOME”,如下所示:
指定我们安装的“JAVA_HOME”,修改为如下所示内容:
第二步修改配置文件yarn-env.sh,在其中加入“JAVA_HOME”,如下所示:
指定我们安装的“JAVA_HOME”,修改为下图:
第三步修改配置文件mapred-env.sh,在其中加入“JAVA_HOME”,如下所示:
指定我们安装的“JAVA_HOME”,如下图所示:
第四步修改配置文件slaves,如下所示:
我们设置Hadoop集群中的从节点为slave1和slave2,把slaves文件的内容修改为:
第五步修改配置文件core-site.xml,如下所示:
把core-site.xml文件的内容修改为:
上述是core-site.xml文件的最小化配置,core-site.xml各项配置可参考:
http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
第六步修改配置文件hdfs-site.xml,如下所示:
把hdfs-site.xml文件的内容修改为如下:
上述是hdfs-site.xml文件的最小化配置,hdfs-site.xml各项配置课参考:
http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
第七步修改配置文件mapred-site.xml,如下所示:
拷贝一份mapred-site.xml.template命名为mapred-site.xml
打开mapred-site.xml
把mapred-site.xml文件的内容修改为:
上述是mapred-site.xml最小化配置,mapred-site.xml各项配置可参考:
第八步修改配置文件yarn-site.xml,如下所示:
把yarn-site.xml的内容修改为:
注意:在主机名前面多空格大错特错
上述内容是yarn-site.xml的最小化配置,yarn-site.xml文件配置的各项内容可以参考:
http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
使用scp命令把master上安装和配置的Hadoop的各项内容拷贝到slave1和slave2上
最后分别在三台机器上配置/etc/profile和~/.bashrc:
修改系统配置文件,修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中,修改完后使用source命令使配置生效。
以master为例:
(1)修改/etc/profile
在末尾加上如下语句,保存并退出:
使用source命令让配置生效
(2)修改~/.bashrc
修改为如下,保存并退出:
使用source命令让配置生效
在另外两台机器上也做同样更改(slave1、slave2)。
注:系统配置文件最好是手动更改,不要在机器中互相拷贝,以免出现系统崩溃。
启动并验证Hadoop分布式集群
第一步:格式化hdfs文件系统:
进入bin目录下
输入如下格式化命令
第二步:进入sbin中启动hdfs,执行如下命令:
启动过程如下:
启动完成后,输入jps可以发现,master上启动了NameNode和SecondaryNameNode;
在slave1和slave2上均启动了DataNode:
此时访问http://master:50070 登录Web控制可以查看HDFS集群的状况:
从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息:
从控制台中看到了我们的两个Datanode节点slave1和slave2,这正是我们预期中的!
第三步 启动yarn集群
使用jps命令可以发现master机器上启动了ResourceManager进程:
而在slave1和slave2上则分别启动了NodeManager进程:
在master上访问http://master:8088 可以通过Web控制台查看ResourceManager运行状态:
在slave1上访问http://slave1:8042 可以通过Web控制台查看slave1上的NodeManager运行状态:
在slave2上访问http://slave2:8042 可以通过Web控制台查看slave2上的NodeManager运行状态: