Long-Sequence Recommendation Models Need Decoupled Embeddings

概
Decoupled Attention and Representation Embeddings (DARE) model

Feng N., Pang J., Wu J., Chen B., Wang X., Li Q., Hu X., Jiang J. and Long M. Long-sequence recommendation models need decoupled embeddings. 2024.

概

通过 embedding 选择短序列, 最好从一个独立的 embedding table 中选择.

Decoupled Attention and Representation Embeddings (DARE) model

现在推荐系统中常常会出现很长很长的序列, 这个时候, 出于效率的角度考虑, 我们通常会从中挑选出一个更为合适的短序列. 最流行的挑选方式就是利用 attention 来进行选择. 但是作者发现这么做有一些问题.

作者分别对从 attention 出得到的梯度和从 embedding 本身得到的梯度进行分析, 如上图所示, 发现二者的梯度方向大部分是不一致的.

一种看似可行的方案是利用投影矩阵, 但是作者发现这个在推荐领域似乎并不那么有用. 如上图所示, 在 Taobao 这个数据集上, 加入了投影反而起到了反作用.
作者认为这可能是因为投影矩阵过于小导致的. 因为在推荐中, embedding 的维度通常不会设置的很大, 所以这导致投影矩阵的表达能力有限 (个人认为, 从空间的角度考虑, 其实是 embedding 所表示的空间太小了).

如上图所示, 作者在 NLP 的任务做了一个测试, 当 embedding dimension 增加的时候, 投影矩阵的大小也随之增加, 在 dimension 很小的时候, 线性投影没啥作用, 之后当大到一定程度才会有所作用.
所以最终的方案就是, embedding 的表示和检索采取两个独立的 embedding table:

posted @ 2024-10-06 10:29 馒头and花卷阅读(36) 评论(0) 编辑收藏举报

刷新页面返回顶部