hadoop集群安装
Hadoop集群安装环境:
centos 6.5 3台 (一台namenode,二台datanode)
hadoop2.4.1版本
jdk1.7
下面2台是hadoop1克隆的。
第一步:修改hosts和HOSTNAME ,全都关闭防火墙。
第二步:配置hadoop1到其他2台机子的ssh无密登陆
在hadoop1 输入命令,一直按enter键,不需要其他操作
cd ~
ssh-keygen -t rsa
会生成这样的目录文件
如果没有authorized_keys文件就自己创建。
touch authorized_keys
核心就是这个authorized_keys文件和id_rsa.pub文件,注意authorized_keys的权限必须是600hadoop2,和hadoop3也是同样的命令,将hadoop1,hadoop2的.ssh文件夹下的authorized_keys文件追加内容,将主机hadoop1 id_rsa.pub文件的内容都加入到hadoop2,hadoop3的authorized_keys文件里面,这是就可以无密登陆了。
如果你是第一次登陆会提示输入一个yes。
第三步:配置hadoop,解压hadoop的包
在etc/hadoop 目录
配置hadoop-env.sh
引入你的jdk路径 export JAVA_HOME=/usr/local/jdk1.7.0_79
修改 core-site.xml:
加入
<configuration>
<!-- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://weekend110:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/zzq/app/hadoop/hadoop-2.4.1/data</value>
</property>
</configuration>
此时创建一个/home/zzq/app/hadoop/hadoop-2.4.1/data 这个路径
修改hdfs-site.xml:
加入
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value> <!-- 2个datanode备份 -->
</property>
</configuration>
修改mapred-site.xml:(要注意的是我的hadoop2.4版本最开始名字是mapred-site.xml.template,把它改为mapred-site.xml)
加入
<configuration>
<property><!-- 指定mr运行在yarn上 -->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改yarn-site.xml:
加入
<configuration>
<!-- Site specific YARN configuration properties -->
<!-- 指定YARN的老大(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>weekend110</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
修改slaves
这就是2个datanode
将hadoop1配置好的hadoop复制到hadoop2和hadoop3(注意都需要jdk环境哦)
如果你的hadoop是第一次使用先格式化一次命令:
hadoop namenode -format
有无密登陆 远程复制很方便,
scp -r ~/app weekend111:/home/zzq
scp -r ~/app weekend112:/home/zzq
第四部 启动hdfs
从图上已经看到已经去启动weekend111和weekend112上的datanode了。
我们再看看hadoop2和hadoop3的进程
那么配置是成功的。