随笔分类 - 推荐系统
摘要:1、GMV(Gross Merchandise Volume)、GTV (Gross Transaction Value) 总销售额,淘宝、京东使用GMV,代指网站的成交金额,主要包括付款金额和未付款的。 GMV=销售额 + 取消订单金额 + 拒收订单金额 + 退货订单金额; 通俗来说,我们平时网购
阅读全文
摘要:0、什么是强化学习 强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. 这就是一个完整的强化学习过程。 原来计算机也需要一位虚拟的老师, 这个老师比较吝啬, 他不会告诉你如何移动, 如何做决定, 他
阅读全文
摘要:1、阿里ESAM:用迁移学习解决召回中的样本偏差 论文解析:https://zhuanlan.zhihu.com/p/335626180 相关论文分析:见文档内 wiki。 2、
阅读全文
摘要:1.Swing算法介绍 Swing算法原理比较简单,是阿里早期使用到的一种召回算法,在阿里多个业务被验证过非常有效的一种召回方式,它认为 user-item-user 的结构比 itemCF 的单边结构更稳定。 为了衡量物品ii和jj的相似性,考察都购买了物品ii和jj的用户uu和vv, 如果这两个
阅读全文
摘要:1、参数个性化 CTR 模型 - PPNet 2019 年之前,快手 App 主要以双列的瀑布流玩法为主,用户同视频的交互与点击,观看双阶段来区分。在这种形式下, CTR 预估模型变得尤为关键,因为它将直接决定用户是否愿意点击展示给他们的视频。彼时业界主流的推荐模型还是以 DNN、DeepFM 等简
阅读全文
摘要:一、快手、抖音产品区别 1、用户群体 市面上流传着一句话“南抖音、北快手”,就是说玩抖音与玩快手的人群不同,说南方人喜欢玩抖音,北方人喜欢玩快手。这主要是与南北方习俗有直接联系,相对而言南方人喜欢安静,北方人喜欢热热闹闹的感觉,所以视频风格也有差异,虽然说现在抖音已经走向全球化,但是基本的用户群体还
阅读全文
摘要:1、推荐系统偏差概述 1. Selection Bias 选择偏差主要来自用户的显式反馈,如对物品的评分。由于用户倾向于对自己感兴趣的物品打分,很少对自己很少对自己不感兴趣的物品打分,造成了数据非随机缺失(Missing Not At Random, MNAR)问题,观察到的评分并不是所有评分的代表
阅读全文
摘要:1、推荐场景 快手主要的流量形态 有 4 个页面:在这些流量分发的场景中,推荐算法是起着核心主导作用,直接决定了用户的体验。 ① 发现页:致力于让用户看见更大的世界,分为单列和双列两种形态。 双列 点选模式,给用户提供选择的自由 单列 上下滑浏览,给用户沉浸式的浏览体验 ② 关注页:一个半熟人半陌生
阅读全文
摘要:1、进化策略(ES:evolution strategy) 在一定的抽象程度上,进化方法可被视为这样一个过程:从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。但是,其数学细节在生物进化方法的基础上实现了很大的抽象,我们最好将进化策略看作是一类黑箱的随机优化技术。 策略作用方式以交叉熵CE
阅读全文
摘要:1、阿里巴巴PRM模型 推荐系统的架构大致分为如下几个模块:召回、粗排、精排、重排,那么为什么要引入重排模块呢。在精排阶段,我们希望得到的是一个候选排序队列的全局最优解,但是实际上,通常在精排阶段,我们精排模型是针对用户和每一个候选广告(商品)输出一个分值;而每个候选之间也会相互影响。例如在360搜
阅读全文
摘要:为什么要做多目标优化? 做多目标优化一般由业务驱动,比如电商场景,肯定是希望推出去的东西用户既点击又购买并且下次还来,如果能够点赞收藏分享那就更好了,这里面涉及的优化目标就多了,比如点击率、转化率、收藏等等,在信息流场景也是一样的。所以多目标的优化是跟业务强相关的,想做一个用户喜欢、内容创作者愿意创
阅读全文
摘要:1、Factorization Machines(FM) FM主要目标是:解决大规模稀疏数据下的特征组合问题。根据paper的描述,FM有一下三个优点: 可以在非常稀疏的数据中进行合理的参数估计 FM模型的时间复杂度是线性的 FM是一个通用模型,它可以用于任何特征为实值的情况 算法原理:在一般的线性
阅读全文
摘要:1、在广告LR模型中,为什么要做特征组合? 在业界,LR模型之所以很受欢迎,主要是因为LR模型本质是对数线性模型,实现简单,易于并行,大规模扩展方便,迭代速度快,同时使用的特征比较好解释,预测输出在0与1之间契合概率模型。但是,线性模型对于非线性关系缺乏准确刻画,特征组合正好可以加入非线性表达,增强
阅读全文
摘要:1、基本思想 目前用的较多的算法ESMM和MMOE类的算法,都是基于目标的重要性是对等或线性相关来优化的,也一定程度上仿真建模解决了业务的需求。后面会细讲一下最基础的两个算法ESMM和MMOE,这里概括一下: ESMM:定义p(CTR)为曝光到点击的概率,那么点击然后购买的概率为p(CTCVR),他
阅读全文
摘要:参考文档:https://mp.weixin.qq.com/s/IRq86H6-9HZYeFVxpwFUVQ 1、推荐系统通常服务于某个具体业务,业务在不同的时间阶段、场景、用户群体下,都有不同的目标,需要灵活考虑。 下面以资讯类APP举例说明: 不同的阶段:产品发展初期,我们更关注用户的粘性和留存
阅读全文
摘要:1、CTR和推荐算法有什么本质区别? https://mp.weixin.qq.com/s/hE5Vc2lLogZoDTBdpzNRJQ 2、线上线下效果一致性杂谈 https://mp.weixin.qq.com/s/B3uXCnK9eyRTg1laCjccQg 3、业务,工程和算法的互殴现场 h
阅读全文
摘要:0、推荐术语 LCN: Longest Continuous no-click Num,连续展现不点击; 1、PNR(Positive Negative Rate) 正逆序比 = 正序数 / 逆序数; 2、TGI(Target Group Index) TGI:即Target Group Index
阅读全文
摘要:0、参考文献 https://mp.weixin.qq.com/s/XD6qFpt8FdLTy2PcrLiTIA 1、 推荐算法套路 (1)排序模型一般都衍生自Google的Wide & Deep模型,有一个浅层模型(LR或FM)负责记忆,DNN负责扩展 (2)特征一般都采用类别特征。画像、用户历史
阅读全文
摘要:0、参考链接 https://mp.weixin.qq.com/s/-c0fYyv9tCdBdiKbG7NPIg 1、问:指标上不去,rank加特征能够提升吗? 分析办法:把rank分数分成若干区间,每个区间统计真实的ctr,更近一步,可以拆分成多个桶,比如按照某个特征拆分成 A,B两组,单独统计每
阅读全文