Linux 下安装hadoop,伪分布模式配置
0.本机安装所需软件及环境
Ubuntu12.0.4,64位
jdk版本:jdk1.7.0_15.tar.gz 地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htm
hadoop版本:hadoop-1.2.1.tar.gz 地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/
1.安装jdk
将jdk1.7.0_15.tar.gz解压到自己制定的目录,我的是解压到/home/peiran/java目录下:
tar -zxvf jdk1.7.0_15.tar.gz -C /home/peiran/java
然后设置环境变量,修改文件:sudo vim /etc/profile
在文件后面添加以下内容:
输入命令 : sudo source /etc/profile 使当前命令立即生效
验证java是否安装成功:如下所示,即安装成功
2.设置SSH免密码登陆,hadoop集群中,主节点需要访问从节点,考虑到集群很大,为了方便,一般都设置成无密码登陆,本文中只使用为分布式。
设置之前得确定本机安装了:SSH客户端openssh-client和openssh-server ,如果没有,就安装并确保ssh启动了
apt-get install openssh-client(一般Ubuntu默认安装了)
sudo apt-get install openssh-server
安装之后,验证ssh是否启动,出现下图所示,即正常启动:
未设置之前,ssh localhost提示输入密码:
依次输入以下命令:
ssh-keygen -t rsa
cd ~/.ssh/
cat id_rsa.pub>>authorized_keys ,整个过程如下图所是,再次ssh localhost时不用输入密码
3.安装并配置hadoop
将hadoop-1.2.1.tar.gz解压到自己制定的目录,我的是解压到/home/peiran/hadoop目录下
hadoop-1.2.1.tar.gz -C /home/peiran/java
伪分布模式:把伪分布式的Hadoop看做是只有一个节点的集群,在这个集群中,这个节点既是master,也是slave;既是NameNode也是DataNode;既是JobTracker,也是TaskTracker。设置如下:
修改/home/peiran/hadoop/hadoop-1.2.1/conf目录下面的hadoop-env.sh文件中的jdk环境变量:修改成自己电脑上的即可
修改/home/peiran/hadoop/hadoop-1.2.1/conf目录下的core-site.xml
修改/home/peiran/hadoop/hadoop-1.2.1/conf目录下的hdfs-site.xml
修改/home/peiran/hadoop/hadoop-1.2.1/conf目录下的mapred-site.xml
4.测试是否成功
首先格式HDFS,进入hadoop安装目录,输入命令 bin/hadoop namenode -format,如下图:
然后启动服务:bin/start-all.sh,然后输入jps指令,所有的五个进程均启动,至此hadoop伪分布模式配置成功
同时打开Web监测端:http://localhost:50030/jobtracker.jsp
http://localhost:50070/dfshealth.jsp
如果正常,说明安装成功。
输入命令:bin/stop-all.sh停止