推荐系统的双塔模型,问答
想问一下各位大佬:
1.推荐系统的双塔模型中,为什么用户向量和商品向量的内积可以表示用户对物品的兴趣呢?因为内积描述的是两个向量之间的相似度,而用户和物品的特征差别很大。
2.即便用户和物品很相似,可以用相似度来刻画喜爱程度吗?
目前工业界常用的推荐系统模型有哪些?
- 召回策略:
- 统计类,热度,LBS;
- 协同过滤类,UserCF、ItemCF;
- U2T2I,如基于user tag召回;
- I2I类,如Embedding(Word2Vec、FastText),GraphEmbedding(Node2Vec、DeepWalk、EGES);
- U2I类,如DSSM、YouTube DNN、Sentence Bert;
- 排序策略,learning to rank 流程三大模式(pointwise、pairwise、listwise),主要是特征工程和CTR模型预估;
- 常见的特征挖掘(user、item、context,以及相互交叉);
- CTR预估,如LR、GBDT、FM、FFM、DNN、Wide&Deep、DCN、DeepFM、DIN、DFN;
- 探索与发现(bandit、Q-Learning、DQN);
- 推荐理由:
- 统计式,如:全城热搜、区域热搜;
- 行为,如:看过、买过、看了又看、搜了又搜;
- 推荐语生成(抽取式,生成式);
作者:老顽童
链接:https://www.zhihu.com/question/314773668/answer/632369879
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
你好,请问一下LR在排序阶段是如何工作的呢?比如训练这个模型用的数据集是什么样的?比如当用于新闻推荐的时候,对于新的样本,模型的输出是什么?topK推荐是需要LR模型给出100个Item的打分,然后再对打分排序后选出K个么?
问题1,排序是分离线训练和在线预测两个阶段;离线训练可分为样本标注、特征选择、模型训练等;在线预测,主要就是基于已训练好的模型,然后根据在线收集的特征,算出分数;如果以LR模型为例子,那么离线阶段,会得到各个特征的权重,在线阶段,就会根据收集到的特征和对应的权重,算出分数;
问题2,训练模型的数据集,一般有两种收集方式,1)自动标注;2)人工标注,自动标注就是根据用户是否点击、下单、支付该item,给予一定的label和weight,比如目标是点击-下单率的话,那么点击且下单的样本就是正样本,点击未下单的样本就作为负样本;人工标注,就是选出一批数据,交给数据标注团队来人为判定出正负样本;
问题3,当用于新闻推荐的时候,对于新的样本,模型的输出是什么?--这里新的样本是指什么?是模型没有见过的样本么?如果是模型没有见过该item,但是线上会收集该item的一些特征,模型就会基于这些特征,给出一个分数,如点击的概率;
问题4,topK推荐,你说的是一种实现方式哈;
链接:https://www.zhihu.com/question/314773668/answer/1745453333
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
做过一段时间推荐,简单的总结一下吧,实际上上面也有人总结的很好了,我的就当补充吧。
- 召回层:召回解决的是从海量候选item中召回千级别的item问题
- 策略规则类:热度召回、LBS、历史行为重定向(买了又买、点了没买)、基于标签召回、业务特有的其他规则
- 模型类:模型类的模式是将用户和item分别映射到一个向量空间,然后用向量召回,这类有itemcf,usercf,embedding(word2vec),Graph embedding(node2vec等),DNN(如DSSM双塔召回,YouTubeDNN等),RNN(预测下一个点击的item得到用户emb和item emb);向量检索可以用Annoy(基于LSH),Faiss(基于矢量量化)。此外还见过用逻辑回归搞个预估模型,把权重大的交叉特征拿出来构建索引做召回
- 粗排层:本质上跟精排类似,只是特征和模型复杂度上会精简,此外也有将精排模型通过蒸馏得到简化版模型来做粗排
- 精排层:精排解决的是从千级别item到几十这个级别的问题
- 预估:lr,gbdt,fm及其变种(fm是一个工程团队不太强又对算法精度有一定要求时比较好的选择),widedeep,deepfm,NCF各种交叉,DIN,BERT,RNN
- 多目标:MOE,MMOE,MTL(多任务学习)
- 打分公式融合: 随机搜索,CEM(性价比比较高的方法),在线贝叶斯优化(高斯过程),带模型CEM,强化等
- 重排层:重排层解决的是展示列表总体最优,模型有 MMR,DPP,RNN系列(参考阿里的globalrerank系列)
- 展示层:
- 探索与利用:随机策略(简单有效),汤普森采样,bandit,强化等
- 产品层:交互式推荐、分tab、多种类型物料融合
相关专栏文章:
推荐系统,召回,粗排、精排、重排,可以采用哪些推荐算法?
推荐系统技术综述
小红书高时效推荐系统背后的技术升级
https://zhuanlan.zhihu.com/p/626542110
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南