05 2023 档案
摘要:背景 推荐系统已经迈入了深度学习时代,模型结构比较复杂,下面介绍在深度学习背景下常用的特征选择方法 1. 根据特征在正负样本上分布的差异 直观感觉上一个特征越重要,那么它在正负样本的分布差异应该是越大的,基于此我们可以用KL散度来表示特征重要性,但是KL散度是非对称,我们可以采用JS散度来表达特征重
阅读全文
摘要:背景 如上图所示,结点6和7是相邻结点,他们应该是相似结点,结点5和6虽然不是相邻结点,但是它们有共同的相邻的结点,因此它们也应该是相似结点。 基于词观察,LINE算法提出了一阶相似性算法和二阶相似性算法 First-order 我们首先如如下公式来计算结点i和j的联合概率分布: 其中ui,uj分
阅读全文
摘要:DeepWalk Deep Walk,它是 2014 年由美国石溪大学的研究者提出的。它的主要思想是在由物品组成的图结构上进行随机游走,产生大量物品序列,然后将这些物品序列作为训练样本输入 Word2vec 进行训练,最终得到物品的 Embedding Node2vec 2016 年,斯坦福大学的研
阅读全文
摘要:背景 这是一篇利用多头attention机制来做特征交叉的论文 模型结构 AutoInt的模型结构如上图所示,搞模型包含 Embedding Layer、Interacting Layer、Output Layer三个部分,其中Embedding Layer和Output Layer和普通模型没什么
阅读全文
摘要:背景 ListNet和ListMLE都是listwise的排序方法 ListNet ListNet用如下公式表示一种排列的概率: 举个例子: 假设有3个doc <doc1, doc2, doc3>,对应的score为 <s1, s2, s3>,那么对于这样一种排列 <s2, s3, s1>,其概率为
阅读全文
摘要:背景 SoftRank是一种listwise的建模方法,listwise建模的难点在于损失函数的选取。在排序中常用NDCG作为评价指标,最直接的想法是NDCG作为损失函数,这样优化目标和评价指标是一致的,没有gap,但是NDCG是不可以微的(需要排序的IR评价指标都是不可微),没法用梯度下降法来优化
阅读全文
摘要:1. label为 1 和 0 2. label为 1 和 -1 因为: 所以: 最后可以得到损失函数为: 参考资料 https://zhuanlan.zhihu.com/p/362317339
阅读全文
摘要:背景 在广告系统中存在大量冷启动广告,冷启动广告由于数据比较少模型很估准,下面总结冷启动广告建模的常用思路 建模方法 1. 采用泛化特征 冷启动的广告由于样本比较少,id类的特征得不到充分学习,一般都是一个随机值或0,会导致模型预估不准确。因此可以下掉id类特征,只用泛化特征训练。 这方法的缺点非常
阅读全文
摘要:背景 在广告模型中,广告id特征是一个非常重要的特征,但是广告id的学习需要充分的样本,而在广告系统中每天都有大量新投的广告,对于从未见过的广告,通常会给这个广告id对应的embedding一个随机值或者是0 这篇论文借鉴了元学习的思想,用泛化特征来学习新广告id对应的dembedding 模型结构
阅读全文
摘要:背景 在LR模型时代,特征交叉一般依赖人工经验,存在以下几个缺点: 1. 依赖人工经验很难构建高阶交叉特征,一般只能构建二阶交叉特征 2. LR中构建的二阶交叉特征必须是这两个特征值一起在样本中出现过模型才能学的到,而在推荐系统中特征是非常稀疏,很多特征其实是没有共现过的 到了深度学习时代,DNN可
阅读全文
摘要:背景 在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中,由于需要计费,所以要求ctr、cvr的预估是无偏的,因此需要进行纠偏 纠偏方法 使用sigmmoid作为分
阅读全文
摘要:背景 由于用户的兴趣是实时变化的,现代推荐、广告系统采用了流式更新的方式来捕捉用户实时兴趣的变化。实时训练的方式面临的一个难题就是正样本的回传是有延迟的,一个实时发送的负样本其实是无法确认是否是真的负样本的。也就是说实时观测到的数据流是一个有偏数据流,并不是真实的数据。如果模型在这个有偏分布上学习,
阅读全文
摘要:背景 在推荐尤其是广告中,一个用户的正反馈不是马上就发生的,可能过了一段时间后才发生。如商品的购买、游戏中的付费行为,常常是发生在点击广告后的几天之后。这样导致了模型训练时不知道一个样本是不是真的负样本。其中一个朴素的解决方法时等待一个固定的时间窗口,超过这个时间窗口还没回传转化的样本都看作负样本,
阅读全文
摘要:背景 position-bias 简单理解就是同个商品/广告展示在不同的位置上有不同的ctr、cvr,如: 1. 小说榜单,越靠前的位置的点击率越高 2. 今日头条中有不同广告位,越显眼的广告位点击率约高 这样就回形成“马太效应”,排在前面的物品越来越容易排在前面,排在后面的物品越来越容易排在后面。
阅读全文