本次安装使用的Hadoop文件是badou学院的Hadoop1.2.1.tar.gz,以下步骤都是在此版本上进行。
1、安装,通过下载tar.gz文件安装到指定目录
2、安装好后需要配置Hadoop集群配置信息:
在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称 名称对应的是各自机器的hostname这样通过hosts文件中配置的域名地址映射可以直接找到对应的机器
a、core-site.xml 在xml文件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property>
<property><name>fs.default.name</name><value>hdfs://192.168.79.10:9000</value></property>
b、mapred-site.xml 在xml文件中添加<property><name>mapred.job.tracker</name><value>http://192.168.79.10:9001</value></property>
c、hdfs-site.xml 在文件中添加<property><name>dfs.replication</name><value>3</value></property><!-- 复制节点数 -->
d、hadoop-env.xml 在文件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45
步骤2配置好后将当前hadoop文件夹复制到集群中其他机器上,只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群
3、配置好Hadoop环境后需要测试环境是否可用:
a、首先进入Hadoop的安装目录,进入bin目录下,先将Hadoop环境初始化,命令:./hadoop namenode -format
b、初始化之后启动Hadoop,命令:./start_all.sh
c、查看Hadoop根目录下的文件,命令:./hadoop fs -ls/
d、上传文件,命令:./hadoop fs -put 文件路径
e、查看文件内容,命令:./hadoopo fs -cat hadoop文件地址
注意:在安装Hadoop环境时先安装好机器集群,使得至少3台以上(含3台)机器之间可以免密互相登录(可以查看上一篇的linux的ssh免密登录)
http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html
执行Python文件时的部分配置
/usr/local/src/hadoop-1.2.1/bin/hadoop
/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar