Mahout的安装与配置

 

Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

 

下载Mahout,我下载的版本是Mahout0.9:mahout-distribution-0.9.tar.gz

 

解压:

 

重命名:

 

配置环境变量:

 

使用命令 source/profile 使环境变量立即生效:

 

验证Mahout是否安装成功:输入myhout,若列出一些算法,则成功

 

运行一个Mahout实例,从网站下载测试数据,另存为 synthetic_control.data.txt 格式

启动Hadoop,在HDFS上创建文件夹testdata(必须命名为testdata)

然后将 synthetic_control.data.txt 上传至 testdata

 

运行k-means算法,该算法会启动10个MapReduce Job任务

 

下面是运行生成的结果:

 

查看output目录:

 

posted @ 2015-03-29 16:28  tinylcy  阅读(250)  评论(0编辑  收藏  举报