选择合适的推荐系统模型

我们的机器学习工程师一直忙于构建GraphLab farm。这篇博客针对一个特殊的应用难题：怎样从 GraphLab Create recommender toolkit 的众多模型和选项中选择一个合适的推荐模型。

这完全取决于你现有的数据类型以及你评估结果的方式。

（注意：这里使用的是GraphLab Create 0.9 的API。GraphLab Create 1.0 支持通过recommender.create() 来智能选择推荐模型。你可以通过 1.0 的API文档查看recommender toolkit中模型的最新说明。此外，这个论坛列出了从版本0.9.1到版本1.0的API变动。）

如果你的数据是隐性的，也就是数据中仅有用户和物品间的交互信息（没有用户对物品的打分），那么，你可以选择使用Jaccard相似度的 ItemSimilarityModel。

# 当数据中仅包含'user_id'和'item_id'两个属性的时候

# recommender.create 方法会自动选择

# `method=‘item_similarity’` and `similarity_type=’jaccard’`

>>> itemsim_jaccard_model = graphlab.recommender.create(data)

当数据为隐反馈时，你可以通过增加一个均为1的目标列把数据伪装成显性数据。若要构建追求排序性能的模型，请见下文。

如果数据是显性的，也就是观测数据中包含用户的真实评分，那么你可以从多个模型中选择。使用cosine或Pearson相似度的ItemSimilarityModel可以包含评分信息。此外，MatrixFactorizationModel（矩阵分解模型）、FactorizationModel（分解模型）以及 LinearRegressionModel（线性回归模型）都支持评分预测。

# 此时数据中包含 3 列，‘user_id’，‘item_id’ 以及 ‘rating’

>>> itemsim_cosine_model = graphlab.recommender.create(data,

target=’rating’,

method=’item_similarity’,

similarity_type=’cosine’)

>>> factorization_machine_model = graphlab.recommender.create(data,

target=’rating’,

method=’factorization_model’)

如果你的目标是提高排序性能，你可以在设置 ranking_regularization 的情况下使用 ItemSimilarityModel（物品相似度模型）、MatrixFactorizationModel（矩阵分解模型）、 FactorizationModel（分解模型）。排序正则化选项设置后会随机地选取一些未观测数据并把它们的目标评分设成一个偏负面的值。ranking_regularization 值在0到1之间。该值越大，负样本的权重也就越大。如果你想使用分解模型来处理隐反馈数据，你应该首先给 SFrame 增加一列全为1的值把它变成显性数据，再将 unobserved_rating_value 设为 0 来运行排序正则化。这里明确地设定 unobserved_raint_value 是有必要的，因为模型默认把未知评分设为已知评分的 5% 分位数；当所有已知评分均为 1 时，它们的 5% 分位数也是 1，不能把它作为未知评分的目标值。

# 数据中包含一列真实的评分

>>> ranking_regularization_model = graphlab.recommender.create(data,

target=’rating’,

method=’matrix_factorization’,

ranking_regularization=1.0)

# 数据中包含一列“伪造”的评分，全部为 1

>>> rr_model_for_implicit_data = graphlab.recommender.create(data,

target=’rating’,

method=’matrix_factorization,

ranking_regularization=1,

unobserved_rating_value=0)

如果你想对评分数据进行评分预测，那么选择MatrixFactorizationModel, FactorizationModel, or LinearRegressionModel的任意一个。从统计学的角度看，这三个模型都是明确地对评分建模的回归模型。换句话说，观测评分被建模为一些项的加权组合，其中权重（包括一些项，也被成为因子）通过训练数据得到。这几个模型都可以很方便地引入用户或物品特征。

# 当数据包含一列目标值时，默认的方法是 matrix_factorization

>>> matrix_factorization_model = graphlab.recommender.create(data,

target=’rating’)

>>> linear_model = graphlab.recommender.create(data,

target=’rating’,

method=’linear_model’)

>>> factorization_machine_model = graphlab.recommender.create(data,

target=’rating’,

method=’factorization_model’)

LinearRegressionModel 假设评分是用户特征、物品特征、用户偏置、物品流行度偏置的线性组合。MatrixFactorizationModel 和 FactorizationModel 还可以引入两个向量的内积项，其中一个向量表示用户对一组隐性特征的喜好程度，另一个向量表示物品对这组隐性特征的包含程度。这些通常被称为隐性因子并且可以从观测数据中自动学习得到。FactorizationModel （分解模型）较 MatrixFactorizationModel（矩阵分解模型）更进一步，考虑到了这些隐性因子与边际特征的交互影响。一般来说，FactorizationModel（分解模型）最有效，但也最难训练（由于它的威力和灵活性）。LinearRegressionModel（线性回归模型）最简单，训练速度也最快，但没有考虑用户物品间的交互作用。

我们建议你从 MatrixFactorizationModel（矩阵分解模型）开始，如果这个模型运行时间过长，可以降级使用 LinearRegressionModel（线性回归模型）。或者，如果你认为需要使用二阶交互项来加强模型，可以升级使用 FactorizationModel（分解模型）。注意，这些模型都带有几个正则化参数如：n_factors 和 regularization，这些参数会影响测试时的预测精度。这对于 FactorizationModel（分解模型）尤为有用。建议你使用超参数搜索函数 graphlab.toolkits.model_params_search() 来调整这些参数。

# 这里强调了回归模型中一些有用的参数选项

>>> custom_mf_model = graphlab.recommender.create(data,

target=’rating’,

n_factors=20,

regularization=0.2,

linear_regularization=0.1)

>>> custom_fm_model = graphlab.recommender.create(data,

target=’rating’,

method=’factorization_model’,

n_factors=50,

regularization=0.5,

max_iterations=100)

>>> custom_linear_model = graphlab.recommender.create(data,

target=’rating’,

method=’linear_model’,

regularization=0.01)

如果目标评分是二值的，也就是它们的值是赞或踩标签，在使用回归模型（LinearRegressionModel, MatrixFactorizationModel, FactorizationModel）时，设置输入参数‘binary_targets = True’。

>>> logistic_regression_model = graphlab.recommender.create(data,

target=’rating’,

method=’linear_model’,

binary_targets=True)

使用MatrixFactorizationModel（矩阵分解模型）和 FactorizationModel （分解模型）训练得到的隐性因子可以作为特征用于其他的任务。在这种情形下，使用非负因子有利于提高可解释性。简单地使用‘nmf=True’作为输入参数，分解类型的模型就会学习非负因子。

>>> nmf_model = graphlab.recommender.create(data,

target=’rating’,

method=’matrix_factorization’,

nmf=True)

已有数据？数据问题？

最后，有几个影响推荐系统性能的常见数据问题。第一，如果观测数据非常稀疏，也就是仅包含大量用户的一个或两个观测数据，那么任何一个模型都不会比 popularity 或 item_means 这些基准模型效果好。这种情况下，将稀疏用户和物品剔除后重试也许有用。另外，重新检查数据收集和清理过程，看错误是否源于此处。尽可能对每个用户每个物品获取更多的观测数据。

另一个经常会遇到的问题是把使用数据当做评分。与显性评分位于一个很好的线性区间（例如，[0, 5]）不同，使用数据可能被严重扭曲。例如，在 Million Song 数据集中，一个用户播放一首歌超过 16000 次。所有的模型都很难应对这种严重扭曲的目标。解决的方法是对使用数据进行归类。例如，把播放次数超过 50 次映射成最高评分 5 。你也可以把播放次数转成二进制，例如播放超高两次的为 1，反之为 0。

好吧，都记住了吗？是的，我们一半都记不住。下面这幅粗略的信息图一目了然地显示了所有的提示。愉快地探索吧，勇敢地推荐系统研究者！

互联网推荐系统漫谈

推荐系统这个东西其实在我们的生活中无处不在，比如我早上买包子的时候，老板就经常问我要不要来杯豆浆，这就是一种简单的推荐。随着互联网的发展，把线下的这种模式搬到线上成了大势所趋，它大大扩展了推荐系统的应用：亚马逊的商品推荐，Facebook的好友推荐，Digg的文章推荐，豆瓣的豆瓣猜，Last.fm和豆瓣FM的音乐推荐，Gmail里的广告......在如今互联网信息过载的情况下，信息消费者想方便地找到自己感兴趣的内容，信息生产者则想将自己的内容推送到最合适的目标用户那儿。而推荐系统正是要充当这两者的中介，一箭双雕解决这两个难题。

算法vs人

有很多人怀疑推荐系统是否会让一个人关注的东西越来越局限，但看完这些你会觉得并非如此，多样性，新颖性和惊喜度也都是考察推荐系统的要素。而至于算法和人究竟哪个更重要的争论，我很赞同唐茶创始人李如一的一个观点：

在技术社群的讨论里，大家默认觉得让推荐算法变得更聪明、让软件变得更「智能」一定是好事。但人不能那么懒的。连「发现自己可能感兴趣的内容」这件事都要交给机器做吗？不要觉得我是Luddite。真正的技术主义者永远会把人放到第一位。

我想补充的是，算法虽然不能解决全部问题，但算法可以变得更人性化。套用某人「网络就是社会」的论断，其实算法和人之间早已不那么泾渭分明了。

推荐系统开源软件汇总

我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system)，并附上了个人的一些简单点评（未必全面准确），

这方面的中文资料很少见，希望对国内的朋友了解掌握推荐系统有帮助

陈运文

SVDFeature

由上海交大的同学开发的，C++语言，代码质量很高。去年我们参加KDD竞赛时用过，非常好用，而且出自咱们国人之手，所以置顶推荐！

项目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼，可以用相对较少的内存实现较大规模的单机版矩阵分解运算。

另外含有Logistic regression的model，可以很方便的用来进行ensemble运算

Crab

项目地址：

http://geektell.com/story/crab-recommender-systems-in-python/

系统的Tutorial可以看这里：

http://muricoca.github.io/crab/

Crab是基于Python开发的开源推荐软件，其中实现有item和user的协同过滤。据说更多算法还在开发中，

Crab的python代码看上去很清晰明了，适合一读

CofiRank

C++开发的 Collaborative Filtering算法的开源推荐系统，但似乎2009年后作者就没有更新了，

CofiRank依赖boost库，联编会比较麻烦。不是特别推荐

项目地址：

http://www.cofirank.org/

EasyRec

Java开发的推荐系统，感觉更像一个完整的推荐产品，包括了数据录入模块、管理模块、推荐挖掘、离线分析等，整个系统比较完备。

项目地址：

http://easyrec.org/

GraphLab

项目地址：

http://graphlab.org/

Graphlab是基于C++开发的一个高性能分布式graph处理挖掘系统，特点是对迭代的并行计算处理能力强（这方面是hadoop的弱项），

由于功能独到，GraphLab在业界名声很响

用GraphLab来进行大数据量的random walk或graph-based的推荐算法非常有效。

Graphlab虽然名气比较响亮（CMU开发），但是对一般数据量的应用来说可能还用不上

Lenskit

http://lenskit.grouplens.org/

这个Java开发的开源推荐系统，来自美国的明尼苏达大学，也是推荐领域知名的测试数据集Movielens的作者，

他们的推荐系统团队，在学术圈内的影响力很大，很多新的学术思想会放到这里

Mahout

网址

http://mahout.apache.org/

Mahout知名度很高，是Apache基金资助的重要项目，在国内流传很广，并已经有一些中文相关书籍了。注意Mahout是一个分布式机器学习算法的集合，协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现（Hadoop-based，另有pure Java版本），Mahout里还有其他常见的机器学习算法的分布式实现方案。

另外Mahout的作者之一Sean Owen基于Mahout开发了一个试验性质的推荐系统，称为Myrrix, 可以看这里：

http://myrrix.com/quick-start/

MyMediaLite

http://mymedialite.net/index.html

基于.NET框架的C#开发（也有Java版本），作者基本来自德国、英国等欧洲的一些高校。

除了提供了常见场景的推荐算法，MyMediaLite也有Social Matrix Factorization这样独特的功能

尽管是.Net框架，但也提供了Python、Ruby等脚本语言的调用API

MyMediaLite的作者之一Lars Schmidt在2012年KDD会议上专门介绍过他们系统的一些情况，可惜由于.Net开发框架日渐式微，MyMediaLite对Windows NT Server的系统吸引力大些，LAMP网站用得很少

LibFM

项目网址：

http://www.libfm.org/

作者是德国Konstanz University的Steffen Rendle，去年KDD Cup竞赛上我们的老对手，他用LibFM同时玩转Track1和Track2两个子竞赛单元，都取得了很好的成绩，说明LibFM是非常管用的利器（虽然在Track1上被我们打败了，hiahia）

顾名思义，LibFM是专门用于矩阵分解的利器，尤其是其中实现了MCMC（Markov Chain Monte Carlo）优化算法，比常见的SGD（随即梯度下降）优化方法精度要高（当然也会慢一些）

顺便八卦下，去年KDD会议上和Steffen当面聊过，他很腼腆而且喜欢偷笑，呵呵挺可爱。

LibMF

项目地址：

http://www.csie.ntu.edu.tw/~cjlin/libmf/

注意LibMF和上面的LibFM是两个不同的开源项目。这个LibMF的作者是大名鼎鼎的台湾国立大学，他们在机器学习领域享有盛名，近年连续多届KDD Cup竞赛上均获得优异成绩，并曾连续多年获得冠军。台湾大学的风格非常务实，业界常用的LibSVM， Liblinear等都是他们开发的，开源代码的效率和质量都非常高

LibMF在矩阵分解的并行化方面作出了很好的贡献，针对SDG优化方法在并行计算中存在的locking problem和memory discontinuity问题，提出了一种矩阵分解的高效算法，根据计算节点的个数来划分评分矩阵block，并分配计算节点。系统介绍可以见这篇论文（Recsys 2013的 Best paper Award）

Y. Zhuang, W.-S. Chin, Y.-C. Juan, and C.-J. Lin. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems. Proceedings of ACM Recommender Systems 2013.