大数据基础---通过Yarn搭建MapReduce和应用实例

上一篇中我们了解了MapReduce和Yarn的基本概念，接下来带领大家搭建下Mapreduce-HA的框架。

结构图如下：

开始搭建：

一.配置环境

注:可以现在一台计算机上进行配置，然后分发给其它服务器

1.1 编辑mapred-site.xml文件：

进入目录 /opt/hadoop/hadoop-2.6.5/etc/hadoop

cd /opt/hadoop/hadoop-2.6.5/etc/hadoop

vim mapred-site.xml

添加如下配置：　　

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value> <!--指定mapreduce通过yarn获取数据，还可以填写参数localhost-->
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

1.2 编辑yarn-site.xml文件:

vim yarn-site.xml

添加如下配置：

<configuratoin>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value> <!--指定nodemanager可以拉取数据-->
  </property>
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value><!--启动resourcemanager高可用-->
  </property>
  <property>
    <name>hadoop.zk.address</name><!--配置zookeeper地址-->
    <value>tuge1:2181,tuge2:2181,tuge3:2181,tuge4:2181</value>
  </property>
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>cluster1</value><!--配置resourcemanager虚拟地址到物理地址的映射-->
  </property>
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>tuge1</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>tuge2</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address.rm1</name>
    <value>tuge1:8088</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address.rm2</name>
    <value>tuge2:8088</value>
  </property>
</configuration>