大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)
数据挖掘---推荐算法(Mahout工具)
一、简介
- Apache顶级项目(2010.4)
- Hadoop上的开源机器学习库
- 可伸缩扩展的
- Java库
- 推荐引擎(协同过滤)、聚类和分类
二、机器学习介绍
- 通常问题都归为这几类问题
- 分类问题
- 回归问题
- 聚类问题
- 推荐问题
三、安装方法
3.1 下载Mahout
wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz
3.2 解压
tar -zxvf mahout-distribution-0.9.tar.gz
四、配置环境变量
4.1 配置mahout环境变量
# set mahout environment export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9 export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
4.2 配置Mahout所需的Hadoop环境变量
# set hadoop environment export HADOOP_HOME=/usr/local/src/hadoop-1.2.1 export HADOOP_CONF_DIR=$HADOOP_HOME/conf export PATH=$PATH:$HADOOP_HOME/bin export HADOOP_HOME_WARN_SUPPRESS=not_null
五、验证是否成功
直接执行mahout命令
支持算法列表
六、准备数据
数据格式:
1,100001,5
1,100002,3
1,100003,4
1,100004,3
1,100005,3
1,100007,4
1,100008,1
1,100009,5
1,1000011,2
七、训练
INPUT="/movie_lens.data" TMP_DIR="/mahout_temp" OUTPUT="/cf_mahout_output" MAHOUT_CMD="/usr/local/src/mahout-distribution-0.9/bin/mahout“ $MAHOUT_CMD itemsimilarity -i $INPUT -o $OUTPUT --maxSimilaritiesPerItem 1000 --threshold 0.0000001 --similarityClassname SIMILARITY_COSINE --tempDir $TMP_DIR
八、输出结果
########## 今天的苦逼是为了不这样一直苦逼下去!##########