并行计算框架-hama,Ubuntu下伪分布安装
0 .前提提条件
安装之前确认安装好hadoop,jdk,配置ssh免密码登陆,具体见 http://www.cnblogs.com/aitixiaocai/p/3529127.html
下载hama安装包:http://www.apache.org/dyn/closer.cgi/hama
1.解压文件到自己指定的目录
tar -zxvf hama-0.6.4.tar.gz -C /home/peiran/
2.修改配置文件
进入目录:/home/peiran/hama-0.6.4/conf
编辑/conf/hama-env.sh,配置jdk:/home/peiran/java/jdk1.7.0_15
/conf/groomservers,默认为:localhost
编辑/conf/hama-site.xml:
<configuration>
<property>
<name>bsp.master.address</name>
<value>localhost:40000</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hama.zookeeper.quorum</name>
<value>localhost</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/peiran/hadoop/tmp</value>
</property>
<property>
<name>hama.tmp.dir</name>
<value>${hadoop.tmp.dir}/hama</value>
</property>
</configuration>
很奇怪,hadoop里面配置的hadoop.tmp.dir竟然读不到,所以就在这里面重新写了一个一样的目录。
3.运行测试
下载Iris dataset,测试kmeans:https://hama.apache.org/run_examples.html
上传数据到hdfs
运行:/hama-0.6.4$ bin/hama jar hama-examples-0.6.4.jar kmeans /input/kmeans.txt /result 10 3
结果: