Bridging Language and Items for Retrieval and Recommendation
概
本文提出了一种利用对比损失训练的预训练模型, 能够把握数据集中的交互信息.
BLaIR
-
BLaIR 的思想很简单如上图所示, 输入为用户的评论, 然后以交互过的商品的 metadata 作为正样本, 没交互过的商品的 meatdata 为负样本, 构成对比损失:
其中 分别是 context 和 item metadata 经过编码后得到的特征, 注意到, 这里负样本直接是采用 in-batch 的负样本.
-
然后结合一般的训练损失, 综合的损失为
注意, 即预训练损失区别 BLaIR 选择哪个 backbone, 比如是 BERT 类的就是 MLM 损失, GPT 类的就是自回归损失.
-
实验部分, 作者拿了 Beauty, Games, Baby 三个子数据集进行实验, 得到的结果如下:
- 可以发现, UniSRec 以 BLaIR 为 encoder 可以取得最好的效果 (而且有一定的 scaling law 现象存在).
注: 本文的数据处理并没有进行 k-core filtering, 而且切分是按照全局的 8:1:1 切分的, 不是常见的 leave-one-out.
代码
[official]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2023-05-23 Learning with Local and Global Consistency
2021-05-23 Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
2020-05-23 Product Integration
2019-05-23 Least Angle Regression