本次安装使用的Hadoop文件是badou学院的Hadoop1.2.1.tar.gz,以下步骤都是在此版本上进行。

1、安装,通过下载tar.gz文件安装到指定目录

2、安装好后需要配置Hadoop集群配置信息:

  在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称 名称对应的是各自机器的hostname这样通过hosts文件中配置的域名地址映射可以直接找到对应的机器

  a、core-site.xml 在xml文件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property>
    <property><name>fs.default.name</name><value>hdfs://192.168.79.10:9000</value></property>

  b、mapred-site.xml 在xml文件中添加<property><name>mapred.job.tracker</name><value>http://192.168.79.10:9001</value></property>

  c、hdfs-site.xml 在文件中添加<property><name>dfs.replication</name><value>3</value></property><!-- 复制节点数 -->

  d、hadoop-env.xml 在文件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45

  步骤2配置好后将当前hadoop文件夹复制到集群中其他机器上,只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群

3、配置好Hadoop环境后需要测试环境是否可用:

  a、首先进入Hadoop的安装目录,进入bin目录下,先将Hadoop环境初始化,命令:./hadoop namenode -format 

  b、初始化之后启动Hadoop,命令:./start_all.sh

  c、查看Hadoop根目录下的文件,命令:./hadoop fs -ls/

  d、上传文件,命令:./hadoop fs -put 文件路径

  e、查看文件内容,命令:./hadoopo fs -cat hadoop文件地址

注意:在安装Hadoop环境时先安装好机器集群,使得至少3台以上(含3台)机器之间可以免密互相登录(可以查看上一篇的linux的ssh免密登录)

 

 

http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html

执行Python文件时的部分配置

/usr/local/src/hadoop-1.2.1/bin/hadoop
/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar

 

posted on 2017-11-26 13:17  轮回之牟  阅读(701)  评论(0编辑  收藏  举报