Long-Sequence Recommendation Models Need Decoupled Embeddings

Feng N., Pang J., Wu J., Chen B., Wang X., Li Q., Hu X., Jiang J. and Long M. Long-sequence recommendation models need decoupled embeddings. 2024.

通过 embedding 选择短序列, 最好从一个独立的 embedding table 中选择.

Decoupled Attention and Representation Embeddings (DARE) model

  • 现在推荐系统中常常会出现很长很长的序列, 这个时候, 出于效率的角度考虑, 我们通常会从中挑选出一个更为合适的短序列. 最流行的挑选方式就是利用 attention 来进行选择. 但是作者发现这么做有一些问题.

  • 作者分别对从 attention 出得到的梯度和从 embedding 本身得到的梯度进行分析, 如上图所示, 发现二者的梯度方向大部分是不一致的.

  • 一种看似可行的方案是利用投影矩阵, 但是作者发现这个在推荐领域似乎并不那么有用. 如上图所示, 在 Taobao 这个数据集上, 加入了投影反而起到了反作用.

  • 作者认为这可能是因为投影矩阵过于小导致的. 因为在推荐中, embedding 的维度通常不会设置的很大, 所以这导致投影矩阵的表达能力有限 (个人认为, 从空间的角度考虑, 其实是 embedding 所表示的空间太小了).

  • 如上图所示, 作者在 NLP 的任务做了一个测试, 当 embedding dimension 增加的时候, 投影矩阵的大小也随之增加, 在 dimension 很小的时候, 线性投影没啥作用, 之后当大到一定程度才会有所作用.

  • 所以最终的方案就是, embedding 的表示和检索采取两个独立的 embedding table:

posted @ 2024-10-06 10:29  馒头and花卷  阅读(36)  评论(0编辑  收藏  举报