mahout:推荐系统入门学习(二)
转自:http://blog.chinaunix.net/uid-26711636-id-3086382.html
1)评价推荐系统优劣的方法
mahout中提供了为用户推荐物品的工具,但如何评价推荐的item是否和实际情况相符合。在机器学习和AI领域,习惯的是利用一部分数据作为训练集数据,而留出一部分实际用户喜好的数据作为测试集数据,通过估计出的值与实际测试值之间的均差、均方根等方法下的大小来评判,通常是值越小说明推荐的情况和实际值越接近,若其值为0说明完全吻合。
由于评判通过推荐系统得出的估计值和实际值之间的得分(通过均差、均方根等得到)直接关系到推荐系统的优劣,所以这里就有必要对此作出必要分析(由于均差方式简单,这里就以它为例)。
Item1Item2Item3
实际值3.05.04.0
估计值3.52.05.0
差值0.53.01.0
均差= (0.5 + 3.0 + 1.0)/ 3 = 1.5
上面就展示了评价已定推荐系统根据均差方法测定其得分的过程,由于存在Item2,导致该系统得分偏高。当然在项目中自己也可以通过代码测试系统的得分(即优劣)。
2)下面的代码可以评估推荐系统的性能:
package com.loogn.valuaterecommender; import org.apache.mahout.cf.taste.impl.model.file.*;//FileDataModel import org.apache.mahout.cf.taste.model.*;//DAtaModel import org.apache.mahout.cf.taste.impl.neighborhood.*; import org.apache.mahout.cf.taste.impl.recommender.*; import org.apache.mahout.cf.taste.impl.similarity.*; import org.apache.mahout.cf.taste.neighborhood.*; import org.apache.mahout.cf.taste.similarity.*; import org.apache.mahout.cf.taste.recommender.*; import org.apache.mahout.common.RandomUtils; import org.apache.mahout.cf.taste.impl.eval.*; import org.apache.mahout.cf.taste.eval.*; import org.apache.mahout.cf.taste.common.TasteException; import java.io.*; public class ValuateRecommender { /** * * @param args * @throws Exception */ public static void main(String[] args) throws Exception{ /** * 只用于结果可重复的例子 */ RandomUtils.useTestSeed(); /** * 加载数据文件 */ DataModel model = new FileDataModel(new File("C:\\Users\\ZhouQiang\\Desktop\\my own task\\intro.csv")); /** * 创建评价器 */ RecommenderEvaluator evaluator = new AverageAbsoluteDifferenceRecommenderEvaluator(); /** * 建立推荐系统 */ RecommenderBuilder builder = new RecommenderBuilder() { @Override public Recommender buildRecommender(DataModel model) throws TasteException { UserSimilarity similarity = new PearsonCorrelationSimilarity(model); UserNeighborhood neighborhood = new NearestNUserNeighborhood(3,similarity,model); return new GenericUserBasedRecommender(model,neighborhood,similarity); } }; /** * 70%的数据作训练集,剩下30%的数据作测试集 */ double score = evaluator.evaluate(builder, null, model, 0.7, 1.0); System.out.println("评价得分:" + score); // 输出评价得分 } } 运行结果分析: 评价得分:1.0
每次运行结果都会是1.0,这是因为使用了RandomUtils.useTestSeed()强制将每次随机选取的集都能达到这个要求,如果将这行代码注释掉,会真的随机出现如下运行结果:
评价得分:NaN
评价得分:NaN
评价得分:0.0