Hadoop（三）手把手教你搭建Hadoop全分布式集群

前言

　　上一篇介绍了伪分布式集群的搭建，其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的。接下来我将给大家分享一下全分布式集群的搭建！

　　其实搭建最基本的全分布式集群和伪分布式集群基本没有什么区别，只有很小的区别。

一、搭建Hadoop全分布式集群前提

1.1、网络

　　1）如果是在一台虚拟机中安装多个linux操作系统的话，可以使用NAT或桥接模式都是可以的。试一试可不可以相互ping通！

　　2）如果在一个局域网当中，自己的多台电脑（每台电脑安装相同版本的linux系统）搭建，将所要使用的Ubuntu操作系统的网络模式调整为桥接模式。

　　　　步骤：

　　　　　　一是：在要使用的虚拟机的标签上右键单击，选择设置，选择网络适配器，选择桥接模式，确定

　　　　　　二是：设置完成之后，重启一下虚拟机　

　　　　　　三是：再设置桥接之前将固定的IP取消　　　

　　　　　　　　桌面版：通过图形化界面设置的。
　　　　　　　　服务器版：在/etc/network/interfaces
　　　　　　　　　　　　iface ens33 inet dhcp
　　　　　　　　　　　　#address ...

　　　　　　四是：ifconfig获取IP。172.16.21.xxx　　　

　　　　　　最后试一试能不能ping通

1.2、安装jdk

　　每一个要搭建集群的服务器都需要安装jdk，这里就不介绍了，可以查看上一篇

1.3、安装hadoop

　　每一个要搭建集群的服务器都需要安装hadoop，这里就不介绍了，可以查看上一篇。

二、Hadoop全分布式集群搭建的配置

配置/opt/hadoop/etc/hadoop相关文件

2.1、hadoop-env.sh　　

　　25行左右：export JAVA_HOME=${JAVA_HOME}
　　改成：export JAVA_HOME=/opt/jdk

2.2、core-site.xml　

        <configuration>
            <property>
                <name>fs.defaultFS</name>
                <value>hdfs://mip:9000</value>
            </property>
        </configuration>

　　分析：

　　　　　　mip：在主节点的mip就是自己的ip，而所有从节点的mip是主节点的ip。

　　　　　　9000：主节点和从节点配置的端口都是9000

2.3、hdfs-site.xml

　　注意：**:下面配置了几个目录。需要将/data目录使用-R给权限为777。

        <configuration>
            <property>
                <name>dfs.nameservices</name>
                <value>hadoop-cluster</value>
            </property>
            <property>
                <name>dfs.replication</name>
                <value>1</value>
            </property>
            <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///data/hadoop/hdfs/nn</value>
            </property>
            <property>
                <name>dfs.namenode.checkpoint.dir</name>
                <value>file:///data/hadoop/hdfs/snn</value>
            </property>
            <property>
                <name>dfs.namenode.checkpoint.edits.dir</name>
                <value>file:///data/hadoop/hdfs/snn</value>
            </property>
            <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///data/hadoop/hdfs/dn</value>
            </property>
        </configuration>

　　　分析：

　　　　　　dfs.nameservices：在一个全分布式集群大众集群当中这个的value要相同

　　　　　　dfs.replication：因为hadoop是具有可靠性的，它会备份多个文本，这里value就是指备份的数量（小于等于从节点的数量）

　　　一个问题：

　　　　　　dfs.datanode.data.dir：这里我在配置的时候遇到一个问题，就是当使用的这个的时候从节点起不来。当改成fs.datanode.data.dir就有用了。

　　　　　　但是官方给出的文档确实就是这个呀！所以很邪乎。因为只有2.0版本之前是fs

2.4.mapred-site.xml　　　　　　　　

　　注意：如果在刚解压之后，是没有这个文件的，需要将mapred-site.xml.template复制为mapred-site.xml。

        <configuration>
            <property>
　　　　　　<!-指定Mapreduce运行在yarn上-->
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
        </configuration>

2.5、yarn-site.xml　　

        <configuration>
            <!-- 指定ResourceManager的地址-->
            <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>mip</value>
            </property>
            <!-- 指定reducer获取数据的方式-->
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
            <property>
                <name>yarn.nodemanager.local-dirs</name>
                <value>file:///data/hadoop/yarn/nm</value>
            </property>

　　分析：

　　　　mip：在主节点的mip就是自己的ip，而所有从节点的mip是主节点的ip。

2.6、创建上面配置的目录

    sudo mkdir -p /data/hadoop/hdfs/nn
    sudo mkdir -p /data/hadoop/hdfs/dn
    sudo mkdir -p /data/hadoop/hdfs/snn
    sudo mkdir -p /data/hadoop/yarn/nm

　　一定要设置成：sudo chmod -R 777 /data