摘要:
1. label为 1 和 0 2. label为 1 和 -1 因为: 所以: 最后可以得到损失函数为: 参考资料 https://zhuanlan.zhihu.com/p/362317339 阅读全文
摘要:
背景 在广告系统中存在大量冷启动广告,冷启动广告由于数据比较少模型很估准,下面总结冷启动广告建模的常用思路 建模方法 1. 采用泛化特征 冷启动的广告由于样本比较少,id类的特征得不到充分学习,一般都是一个随机值或0,会导致模型预估不准确。因此可以下掉id类特征,只用泛化特征训练。 这方法的缺点非常 阅读全文
摘要:
背景 在广告模型中,广告id特征是一个非常重要的特征,但是广告id的学习需要充分的样本,而在广告系统中每天都有大量新投的广告,对于从未见过的广告,通常会给这个广告id对应的embedding一个随机值或者是0 这篇论文借鉴了元学习的思想,用泛化特征来学习新广告id对应的dembedding 模型结构 阅读全文
摘要:
背景 在LR模型时代,特征交叉一般依赖人工经验,存在以下几个缺点: 1. 依赖人工经验很难构建高阶交叉特征,一般只能构建二阶交叉特征 2. LR中构建的二阶交叉特征必须是这两个特征值一起在样本中出现过模型才能学的到,而在推荐系统中特征是非常稀疏,很多特征其实是没有共现过的 到了深度学习时代,DNN可 阅读全文
摘要:
背景 在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中,由于需要计费,所以要求ctr、cvr的预估是无偏的,因此需要进行纠偏 纠偏方法 使用sigmmoid作为分 阅读全文
摘要:
背景 由于用户的兴趣是实时变化的,现代推荐、广告系统采用了流式更新的方式来捕捉用户实时兴趣的变化。实时训练的方式面临的一个难题就是正样本的回传是有延迟的,一个实时发送的负样本其实是无法确认是否是真的负样本的。也就是说实时观测到的数据流是一个有偏数据流,并不是真实的数据。如果模型在这个有偏分布上学习, 阅读全文
摘要:
背景 在推荐尤其是广告中,一个用户的正反馈不是马上就发生的,可能过了一段时间后才发生。如商品的购买、游戏中的付费行为,常常是发生在点击广告后的几天之后。这样导致了模型训练时不知道一个样本是不是真的负样本。其中一个朴素的解决方法时等待一个固定的时间窗口,超过这个时间窗口还没回传转化的样本都看作负样本, 阅读全文
摘要:
背景 position-bias 简单理解就是同个商品/广告展示在不同的位置上有不同的ctr、cvr,如: 1. 小说榜单,越靠前的位置的点击率越高 2. 今日头条中有不同广告位,越显眼的广告位点击率约高 这样就回形成“马太效应”,排在前面的物品越来越容易排在前面,排在后面的物品越来越容易排在后面。 阅读全文
摘要:
背景 这是Facebook应用在社交搜索召回上的一篇论文,与传统搜索场景(google,bing)不同的是,fb这边通常需要更加考虑用户的一些画像,比如位置,社交关系等。举个例子:fb上有很多John Smith,但用户使用查询“John Smith”搜索的实际目标人很可能是他们的朋友或熟人。 或者 阅读全文
摘要:
背景 在推荐系统存在两个难题: 1. 需要同时优化点击、观看时长、点赞、打分、评论等多个目标,如何同时建模多个目标 2. 存在position bias,即同个视频放在不通位置上点击率等会不同,如何建模position bias youtube这篇论文采用了MMOE来建模多目标,并用一个shallo 阅读全文