随笔分类 - 推荐系统
摘要:
粗排/精排的个性化多任务学习模型,能预估20多个不同的预估值,如点击率、有效播放率、播放时长、点赞率、关注率等,那如何用它来排序呢?从多任务学习到多目标排序,中间有一个过渡,即如何把这些预估值融合成一个单一的排序分,最后实现多目标精排。这也就引入了本文要介绍的正题:多目标融合(multi-task fusion, MTF)。手工融合的优点在于其目标权重就指示了目标在融合公式中的重要度,比较直观且可解释性强。当然其缺点也非常明显,这个权重系数对于所有用户都是一样的,缺少个性化。那么,我们是否可以用模型来学习超参数呢?这就涉及到了融合超参数的学习方法了,也即用一个模型来学习各预估分数的组合权重。
阅读全文

摘要:
跨域推荐旨在利用从其它相关源域收集的用户-物品交互信息以提升目标域的推荐质量。传统的跨域推荐方法常常基于嵌入和映射(Embedding and Mapping,EMCDR) 的思路,这种方法在进行对齐操作之前,各领域需要先通过预训练以独立地得到用户/物品的embeddings。因此,有偏的(biased) 预训练表征将无可避免地包含领域特有的(domain-specific) 信息,从而会导致对跨领域迁移信息产生负面影响。事实上,跨域推荐的关键问题就在于:究竟需要在不同的域之间共享什么信息?也即如何让表征能够编码到领域间共享(domain-shared)的信息?
阅读全文

摘要:
做为最后一篇论文阅读记录,我决定对我目前为止粗读和精读的论文进行一次总结,然后陈述一些个人对该研究领域的见解和想法。首先,总结一下论文,推荐系统中的偏差和不公平现象是随着推荐算法的诞生就与生俱来的,而不是人为故意产生的。目前我读过的论文中包括的一些典型的偏差和其主要的解决方案包括:人口平等(Demographic parity)、位置偏差(Position bias)、曝光偏差(Exposure bias)、选择偏差(Selection bias)、曝光偏差(Exposure bias)、流行度偏差(Popularity bias)。
阅读全文

摘要:
接下来我总共花了将近四天时间才将论文《Towards Long-term Fairness in Recommendation》理解透彻。因为该论文用到了强化学习(Reinforcement Learning),而强化学习不像之前的生成对抗网络(GAN)一样简洁明了,涉及的数学知识非常多。在看论文之前我花费了很所时间去补强化学习的基础,其中牵涉到的知识点还包括随机过程、数值优化等,因此我在掌握文章背景上就耗费了很多时间和精力。
阅读全文

摘要:
本篇博客我们介绍论文《Learning Fair Representations for Recommendation: A Graph-based Perspective》,在博客中我们将论文的结构和核心思想进行了详细地梳理,并讲解该论文的Pytorch框架实现代码。该论文有几个要点,其中包括使用生成对抗网络(GAN)训练的滤波器对原始的用户-物品embeddings向量进行转换,以除去用户的敏感信息(该论文假定原始嵌入算法不可修改,只能在已经生成的embeddings向量上做转换)。在论文的实验部分,我们分数据集描述、模型评估策略、超参数调整、测试结果记录四个部分来展开叙述。MovieLens-1M 是一个推荐系统的基准数据集,这个数据集包括6040个用户对于近4000部电影的近1百万条评分信息。用户具有三个类别型属性,包括性别(2种类别),年龄(7种类别)和职位(21个类别)。
阅读全文

摘要:
推荐系统的公平性(fairness)正在成为推荐系统领域的一个新的突破点,目前对于推荐系统这种需要落地的应用,单纯的在模型领域取得准确率等指标的突破已经不是唯一的追求。虽然fancy的模型依然重要,但是越来越多的学者关注于模型在应用中的可解释性以及机器学习算法中性别偏见、种族歧视等不公平问题,而这也与社会学、人口学、经济学等不同学科产生了交叉。
阅读全文
