Mac OS Hadoop Mahout安装

Mac OS Hadoop Mahout安装

1. 下载Hadoop,Mahout:

  可以直接从labs.renren.com/apache-mirror/hadoop和labs.renren.com/apache-mirror/mahout下载

2. 配置Hadoop配置文件:

  (1) core-site.xml:

复制代码
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  
<!-- Put site-specific property overrides in this file. -->  
  
<configuration>  
    <property>  
        <name>fs.default.name</name>  
        <value>hdfs://localhost:9000/</value>  
    </property>  
</configuration>  
复制代码

  (2) mapred-site.xml

复制代码
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  
<!-- Put site-specific property overrides in this file. -->  
  
<configuration>  
  <property>  
    <name>mapred.job.tracker</name>  
    <value>localhost:9001</value>  
  </property>  
</configuration>  
复制代码

  (3) hdfs-site.xml

复制代码
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  
<!-- Put site-specific property overrides in this file. -->  
  
<configuration>  
  <property>  
    <name>dfs.replication</name>  
    <value>1</value>  
  </property>  
</configuration>  
复制代码

  (4) 在 hadoop-env.sh文件末尾加入以下配置信息:

export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home 
export HADOOP_INSTALL=/Users/alex/Documents/DevRes/hadoop-0.21.0 
export PATH=$PATH:$HADOOP_INSTALL/bin 

3. 配置SSH

  在系统偏好设置->共享里勾选'远程登录'选项

  配置无密钥登陆:

  (1) 生成密钥(公钥):

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 

  ssh-keygen代表生成密钥;-t表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件

  (2) 把公钥加入认证文件中:

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 

  设置完成后用SSH登陆本机就不会要求输入密码

4. 运行Hadoop:

  格式化:

bin/hadoop namenode -format

  启动所有进程:

bin/start-all.sh

  如果报错:

Unable to load realm info from SCDynamicStore 

  则在hadoop-env.sh文件末尾加入:

export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk" 

5. 测试WordCount

  首先生成输入文件input.txt:

1 hello world
2 hello hadoop

  在HDFS下创建目录input:

bin/hadoop fs -mkdir input

  将输入文件放入该目录中:

bin/hadoop fs -put input.txt input

  执行Hadoop自带的example.jar中的WordCount:

bin/hadoop jar hadoop-version-example.jar wordcount input output

  运行结果会放入output文件夹中,显示该文件夹中的信息:

bin/hadoop fs -ls output

  会显示三个文件:_SUCCESS,_logs,part-r-00000,真正的结果存放在part-r-00000中:

bin/hadoop fs -cat output/part-r-00000

  最终的结果为:

hadoop    1
hello    2
world    1

6. 配置Mahout:

  在/etc/profile文件末尾加入以下配置信息

export=JAVA_HOME/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home 
export MAHOUT_HOME=/path/to/mahout

  执行bin/mahout --help,如果有帮助信息则说明安装成功

7. 在Eclipse中配置Hadoop和Mahout

  (1) 配置Hadoop和在别的OS下配置Hadoop一样,都是将Hadoop的Eclipse-plugin的jar包导入Eclipse的plugin文件夹,然后在Eclipse的preference->Hadoop Map/Reduce下配置Hadoop的安装路径

  (2) 配置好Hadoop后,新建一个Map/Reduce工程,然后将mahout目录下的core,core-job,math,util四个jar包加入到该工程的Build Path中即可

 

参考文献:

  [1]  Mac OS下安装伪分布式Hadoop

  [2]  Mac OS下安装伪分布式Hadoop及Eclipse插件

  [3]  配置SSH免密钥登陆

  [4]  Unable to load realm info from SCDynamicStore错误解决

 

 

 

posted on   潘的博客  阅读(1142)  评论(0编辑  收藏  举报

< 2012年11月 >
28 29 30 31 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 1
2 3 4 5 6 7 8

导航

统计

点击右上角即可分享
微信分享提示