推荐系统的双塔模型,问答

 

想问一下各位大佬:
1.推荐系统的双塔模型中,为什么用户向量和商品向量的内积可以表示用户对物品的兴趣呢?因为内积描述的是两个向量之间的相似度,而用户和物品的特征差别很大。
2.即便用户和物品很相似,可以用相似度来刻画喜爱程度吗?

 

 

 

目前工业界常用的推荐系统模型有哪些?

 
  1. 召回策略:
    1. 统计类,热度,LBS;
    2. 协同过滤类,UserCF、ItemCF;
    3. U2T2I,如基于user tag召回;
    4. I2I类,如Embedding(Word2Vec、FastText),GraphEmbedding(Node2Vec、DeepWalk、EGES);
    5. U2I类,如DSSM、YouTube DNN、Sentence Bert;
  2. 排序策略,learning to rank 流程三大模式(pointwise、pairwise、listwise),主要是特征工程和CTR模型预估;
    1. 常见的特征挖掘(user、item、context,以及相互交叉);
    2. CTR预估,如LR、GBDT、FM、FFM、DNN、Wide&Deep、DCN、DeepFM、DIN、DFN;
  3. 探索与发现(bandit、Q-Learning、DQN);
  4. 推荐理由:
    1. 统计式,如:全城热搜、区域热搜;
    2. 行为,如:看过、买过、看了又看、搜了又搜;
    3. 推荐语生成(抽取式,生成式);

 



作者:老顽童
链接:https://www.zhihu.com/question/314773668/answer/632369879
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

你好,请问一下LR在排序阶段是如何工作的呢?比如训练这个模型用的数据集是什么样的?比如当用于新闻推荐的时候,对于新的样本,模型的输出是什么?topK推荐是需要LR模型给出100个Item的打分,然后再对打分排序后选出K个么?

 

问题1,排序是分离线训练和在线预测两个阶段;离线训练可分为样本标注、特征选择、模型训练等;在线预测,主要就是基于已训练好的模型,然后根据在线收集的特征,算出分数;如果以LR模型为例子,那么离线阶段,会得到各个特征的权重,在线阶段,就会根据收集到的特征和对应的权重,算出分数;
问题2,训练模型的数据集,一般有两种收集方式,1)自动标注;2)人工标注,自动标注就是根据用户是否点击、下单、支付该item,给予一定的label和weight,比如目标是点击-下单率的话,那么点击且下单的样本就是正样本,点击未下单的样本就作为负样本;人工标注,就是选出一批数据,交给数据标注团队来人为判定出正负样本;

问题3,当用于新闻推荐的时候,对于新的样本,模型的输出是什么?--这里新的样本是指什么?是模型没有见过的样本么?如果是模型没有见过该item,但是线上会收集该item的一些特征,模型就会基于这些特征,给出一个分数,如点击的概率;

问题4,topK推荐,你说的是一种实现方式哈;

 
作者:tracholar
链接:https://www.zhihu.com/question/314773668/answer/1745453333
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

做过一段时间推荐,简单的总结一下吧,实际上上面也有人总结的很好了,我的就当补充吧。

  1. 召回层:召回解决的是从海量候选item中召回千级别的item问题
    1. 策略规则类:热度召回、LBS、历史行为重定向(买了又买、点了没买)、基于标签召回、业务特有的其他规则
  2. 模型类:模型类的模式是将用户和item分别映射到一个向量空间,然后用向量召回,这类有itemcf,usercf,embedding(word2vec),Graph embedding(node2vec等),DNN(如DSSM双塔召回,YouTubeDNN等),RNN(预测下一个点击的item得到用户emb和item emb);向量检索可以用Annoy(基于LSH),Faiss(基于矢量量化)。此外还见过用逻辑回归搞个预估模型,把权重大的交叉特征拿出来构建索引做召回
  3. 粗排层:本质上跟精排类似,只是特征和模型复杂度上会精简,此外也有将精排模型通过蒸馏得到简化版模型来做粗排
  4. 精排层:精排解决的是从千级别item到几十这个级别的问题
    1. 预估:lr,gbdt,fm及其变种(fm是一个工程团队不太强又对算法精度有一定要求时比较好的选择),widedeep,deepfm,NCF各种交叉,DIN,BERT,RNN
    2. 多目标:MOE,MMOE,MTL(多任务学习)
    3. 打分公式融合: 随机搜索,CEM(性价比比较高的方法),在线贝叶斯优化(高斯过程),带模型CEM,强化等
  5. 重排层:重排层解决的是展示列表总体最优,模型有 MMR,DPP,RNN系列(参考阿里的globalrerank系列)
  6. 展示层:
    1. 推荐理由:统计规则、行为规则、抽取式(一般从评论和内容中抽取)、生成式;排序可以用汤普森采样(简单有效),融合到精排模型排等等
    2. 首图优选:CNN抽特征,汤普森采样
  7. 探索与利用:随机策略(简单有效),汤普森采样,bandit,强化等
  8. 产品层:交互式推荐、分tab、多种类型物料融合

 

相关专栏文章:

1、tracholar:推荐系统一:召回

 

目前工业界常用的推荐系统模型有哪些? - tracholar的回答 - 知乎 https://www.zhihu.com/question/314773668/answer/1745453333
 
 

 

目前工业界常用的推荐系统模型有哪些? - billlee的回答 - 知乎 https://www.zhihu.com/question/314773668/answer/1467844615
 
chatgpt:
推荐系统,召回,粗排、精排、重排,可以采用哪些推荐算法?
 
推荐系统中的召回、粗排、精排和重排都可以采用不同的推荐算法,下面是一些常用的推荐算法: 1. 召回阶段:基于用户历史行为的推荐算法,如基于用户的协同过滤、基于物品的协同过滤、基于热度的推荐等。 2. 粗排阶段:基于用户行为、商品特征、上下文信息等多种因素的推荐算法,如逻辑回归、决策树、随机森林、GBDT等。 3. 精排阶段:基于用户历史行为、商品特征、上下文信息等多种因素的推荐算法,如基于深度学习的排序模型(如DNN、Wide & Deep、DeepFM等)。 4. 重排阶段:基于广告主的竞价排名等方式的推荐算法。 需要根据具体应用场景和数据情况,综合考虑算法的准确性、复杂度、实时性等因素进行选择。
 

推荐系统技术综述

https://zhuanlan.zhihu.com/p/627664537 

 

posted @   parkdifferent  阅读(328)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
点击右上角即可分享
微信分享提示