推荐系统的实验方法和评测指标

以下内容来自<推荐系统实战>

推荐系统中,主要有3种评测推荐效果的实验方法:离线实验,用户调查,在线实验。

1. 离线实验

2. 用户调查

3.在线实验

 

一般我们要更新一个推荐算法,需要依次完成上述3个实验,才能确保推荐算法起到作用。

下面是评测指标:

1. 用户满意度

用户满意度没有办法离线计算,只能通过用户调查或者在线实验获得。

用户调查:需要从不同的侧面询问用户对结果的不同感受。设计问卷时需要考虑用户各方面的感受。

在线实验:用户满意度是通过对用户行为的统计得到。比如,用户购买了推荐的商品,表示他们在一定程度上满意。因此,可以利用购买率度量用户的满意度。另外,有些网站会设计一些用户反馈界面收集用户满意度。可以在界面中显示对推荐结果满意或者不满意的反馈按钮,通过统计这两种按钮的单击情况可以度量用户的满意度。一般地,我们可以用点击率、用户停留时间和转化率等指标来度量用户的满意度。

2. 预测准确度

预测准确度是度量一个推荐系统或者推荐算法预测用户行为的能力。这个指标是最重要的推荐系统离线评测指标,大部分与推荐相关的论文都在讨论这个指标。在计算该指标是需要有一个离线的数据集,该数据集包含用户的历史行为记录。将该数据集通过时间分成训练集和测试集。然后,在训练集上建立用户的行为和兴趣模型预测用户在测试集上的行为,并计算预测行为和测试集上实际行为的重合度作为预测准确度。由于离线的土建算法有不同的研究方向,因此针对不同的研究方向介绍他们的预测准确度指标。

2.1 评分预测算法

预测用户对物品评分的行为称为评分预测。评分预测的预测准确度一般通过均方根误差和平均绝对误差计算。

2.2 TopN推荐

网站在提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐叫做TopN推荐。TopN推荐的预测准确率一般通过准确率/召回率度量。

3. 覆盖率

覆盖率描述一个推荐系统对物品长尾的发掘能力。最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为U, 推荐系统给每个用户推荐一个长度为N的物品列表R(u), I是所有物品集合。推荐系统的覆盖率可以通过下面的公式:

为了更细致地描述推荐系统发掘长尾的能力,需要统计推荐列表中不同物品出现次数的分布。如果所有的物品都出现在推荐列表中,且出现的次数差不多,那么推荐系统发掘长尾的能力就很好。因此可以通过研究物品在推荐列表中出现次数的分布描述推荐系统挖掘长尾的能力。如果这个分布比较平,那么说明推荐系统的覆盖率较高,而如果这个分布较陡峭,说明推荐系统的覆盖率较低。说到分布,我们可以利用信息熵或者基尼指数来评判分布是否混乱(每个标量变量的概率如果相近,越混乱)。因此,可以使用信息熵或者基尼指数来定义覆盖率。

上述基尼指数与我们通常定义的基尼指数有比较大的差别。通常的基尼指数定义为 $G = 1 - \sum_{j=1}^k p(j)^2 , k $是类别数。这里我也不清楚这个公式?

4. 多样性

如果推荐列表比较多样,覆盖了用户绝大多数的兴趣点,那么就会增加用户找到感兴趣物品的概率。因此给用户的推荐列表也需要满足用户广泛的兴趣,即多样性。

上述的公式比较好理解,分子是给用户推荐的所有物品之间的相似度的和,下面是物品与物品之间有多少对。就是推荐列表R(u)的物品相似度平均值,由于这是相似度,我们可以简单定义不相似性为1-similarity。

另外,测评指标还有:5.新颖性 6.惊喜度 7.信任度 8.实时性 9.健壮性 10.商业目标 等等

5. 新颖性指:利用推荐结果的平均流行度,越不热门的物品越可能让用户觉得新颖。

6.惊喜度:推荐结果和用户的历史兴趣不相似,但是用户觉得很满意。这里没有公认的惊喜度指标定义方式,这里给一种定性的度量方式。给用户推荐的物品与用户历史上喜欢的物品越不相似,此时给用户推荐,用户如果满意,则惊喜度越高。

7.信任度:只能通过问卷调查的方式,询问用户是否信任推荐系统的推荐结果。

8. 实时性:当用户有行为后,我们希望推荐系统能够实时地为用户推荐相关的物品。也就是说,如果推荐列表在用户有行为后变化不大,或者没有变化,说明推荐系统的实时性不高。另外,我们希望推荐系统能够将加入系统的物品推荐给用户,这要求推荐系统具有处理冷启动的能力。

9. 健壮性: 衡量一个推荐系统抗击作弊的能力。有些商家会雇佣人给自己的商品很高的评分,评分行为是推荐系统依赖的重要用户行为。如果我们给数据集注入噪声数据,在注入噪声前后给用户的推荐列表没有明显的变化,说明算法比较健壮。

10. 商业目标:不同的网站有不同的商业目标。电子商务网站的目标可能是销售额,基于展示广告盈利的网站商业目标是广告展示总数,基于点击广告盈利的网站商业目标是广告点击总数。因此,设计推荐系统需要考虑最终的商业目标。

posted @ 2019-06-18 20:39  搞钱的阿军  阅读(956)  评论(0编辑  收藏  举报