Hadoop 2.4.0 分布式集群搭建教程

配置说明

以在公司搭建的Hadoop为例。版本Hadoop2.4，存储在360云盘中。

所有的配置文件位于附件中，供后来参考。

Master(namenode):

hadoop-test1 192.168.*.*8(内网地址) 10.*.*.*5(外网地址)

Slaver(datanode)：

hadoop-test2 192.168.*.*9(内网地址) 10.*.*.*6(外网地址)

操作系统为linux

配置过程

1. ssh免密码访问

2. 安装Java和Hadoop（就是拷贝解压，过程省略）

3.配置系统变量和hosts

4.配置hadoop参数

5.启动和调试Hadoop

最后我会说下遇到的问题和注意事项。

SSH免密码访问

以A主机B主机为例：

A生成自己的公钥和私钥，并将公钥给B。B如果把公钥作为授权密码，那么A就可以免密码访问B。

因为A发送信息经过自己的私钥加密，B用公钥能打开的话，就可以确定是A。

在Linux下，生成公钥私钥的命令为：

ssh-keygen -t rsa

一路回车下去，如果是root用户，会在/root目录下生成.ssh文件夹（普通用户则是/home/用户名/下）。

文件夹中的id_rsa是私钥，id_rsa.pub是公钥。新建authorized_keys文件（授权文件），并把公钥内容拷贝进去，那么这个主机就可以无密码访问自己了。试一试：

ssh localhost

如果想要访问B主机，那就要在B主机上相同的位置创建authorized_keys，并把A的公钥拷贝进去。

ps，如果想要互访，那么在B上也要生成一遍公钥私钥。

ps2，authorized_keys以行为单位追加，每一行就是id_rsa.pub的全部内容。

配置系统变量和hosts

系统变量主要是Java和hadoop的路径信息，它位于/etc/profile：

追加以下内容，其中加粗的是要改动的：

# java path
JAVA_HOME=/usr/java/jdk1.7.0_01
CLASSPATH=.:$JAVA_HOME/lib/tools.jar:/lib/dt.jar
PATH=$JAVA_HOME/bin:$PATH
#hadoop path new
HADOOP_HOME=/usr/hadoop-2.4.0
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
HADOOP_MAPARED_HOME=${HADOOP_HOME}
HADOOP_COMMON_HOME=${HADOOP_HOME}
HADOOP_HDFS_HOME=${HADOOP_HOME}
YARN_HOME=${HADOOP_HOME}
HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop
YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

其中的目录都是总文件夹的位置。

hosts位于/etc/中，要添加master和slave的IP信息，由于两者都位于内网，所以用内网IP：

192.168.*.*8 hadoop-test1
192.168.*.*9 hadoop-test2

ps，master和slave都需要配置。

配置Hadoop参数

进入最复杂的配置hadoo参数了。先介绍下Hadoop的目录结构：

bin和sbin就是常用的hadoop执行脚本了，如果我们将其添加到系统变量，就不用每次都到目录下才能运行。

logs是日志文件，运行过程中的错误可以到此来查。

etc/hadoop/文件下，都是配置文件。建议查阅相关的说明，或者直接使用附件配置文件并进行路径的的修改。以下对常用的和需要修改的进行说明：

core-site.xml:

在里面需要配置hdfs的路径和tmp.dir的位置，加粗的是需要修改的：

<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.*.*8:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/temp</value>
</property>

hadoop-env.sh：

用于指定hadoop的运行环境，如果没有改动就是默认的运行环境（系统变量里面配置的）。需要进行检查。

hdfs-site.xml:

hdfs的配置文件：

<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<description>
If "true", enable permission checking in HDFS.
If "false", permission checking is turned off,
but all other behavior is unchanged.
Switching from one parameter value to the other does not change the mode,
owner or group of files or directories.
</description>
</property>

前两项分别是namenode和datanode的存放位置。

ps，namenode中主要存放数据块的地址映射，数据块在datanode中。

mapred-env.sh:

配置MapReduce的运行环境，一般就加入JDK的路径：

export JAVA_HOME=/usr/java/jdk1.7.0_01

mapred-site.xml：

mapreduce的配置文件，在2.0后的hadoop中，mapReduce都交由yarn处理，所以要配置（还有其它配置，此处只讲最基本的）：

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

slaves：

slave的配置文件，以行为单位写上ip地址就可以了。（建议内网IP，不要master的ip）

yarn-env.sh:

配置yarn的运行环境，一般就加入JDK的路径：

export JAVA_HOME=/usr/java/jdk1.7.0_01

yarn-site.xml:

yarn的配置文件，参数很多。附件中的配置为：


<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.*.*8:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.*.*8:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.*.*8:8088</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.*.*8:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.*.*8:8033</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.*.*8</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>20480</value>
</property>

就此大体配置完毕，以上是在master中的配置。slave中只需要将所有hadoop文件拷贝过去，并清空slave中的内容。

启动和调试Hadoop

hadoop的启动需要在namenode上进行。启动前，要清空一下namenode：

hadoop namenode -format

然后分别start-dfs.sh和start-yarn.sh。

通过jps查看进程，如果master机器上有：

SecondaryNamenode

ResourceManager

Namenode

Jps

说明namenode机器运行正常。

如果slave机器上有：

Datanode

NodeManager

Jps

说明slave运行正常。

此时hadoop正常的跑起来了，可以通过web页面：

http://10.*.*.*0:50070/
http://10.*.*.*0:8088/

查看信息。

问题及注意事项

namenode没有跑起来：

关闭hadoop服务，执行hadoop namenode -format。再启动，如果还是跑不起来，则需要查看日志。

datanode没有跑起来：

这种情况可能是多种问题导致，须查看日志。我遇到的有：

1. datanode没有连上namenode：hosts没有配置

2. NameNode 和 DataNode 的namespaceID或者ClusterID不一致：由于两次或者以上格式化NameNode造成的。解决方法一：删除所有DataNode的资料（dfs.datanode.data.dir和hadoop.tmp.dir的位置）。解决方法二：修改每个DataNode的namespaceID(位于$(dfs.data.dir)的current的VERSION中)，也可以修改NameNode的该ID(位于$(dfs.data.dir)的current的VERSION中)。

安全模式：

分布式文件系统启动时候会有安全模式，当处于安全模式时，文件系统内容不允许修改和删除。可以通过命令退出安全模式。

对Linux系统添加新用户后没有对应用户文件夹：

useradd hadoop -m

加了-m有的系统中才会有home下的文件夹，而这个文件夹的权限会影响SSH的免密码登录。

各种Permission Denied：

将文件权限改成777：

chmod 777 *.sh

参考教程：

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

http://www.powerxing.com/install-hadoop-cluster/

来自为知笔记(Wiz)