Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate阅读笔记

动机

本文是2018年阿里巴巴在SIGIR上发表的一篇论文。传统的CVR预估模型有两个问题,一是训练模型是在已经点击后的数据上训练,而推理是在曝光后的数据上推理,训练数据与预测数据分布不一致(见下图),举一个更实际的例子说明,打开淘宝,首页推荐的商品就是曝光的商品,如果你点进这些商品页面,这些商品就是被点击的商品,如果还购买商品,这些商品就是转化的商品,传统的CVR预估模型是用这些被点击过的商品训练模型,但是到实际推理时使用的是被曝光的商品;二是数据稀疏,因为点击事件发生的可能性小导致数据稀疏。为了解决上述问题,作者在文章中提出一种新的模型——ESMM,该模型通过在整个空间上建模及迁移学习解决了上述问题。

算法

pCTR为曝光后点击率、pCVR为点击后转化率、pCTCVR为曝光后点击转化率,这些概率遵循以下式子

其中x为特征向量,y和z是二值变量,分别代表是否点击和是否转化。
作者提出的ESMM模型如下图所示,由两个子网络构成,分别是CTR网络和CVR网络,两个子网络结构相同

ESMM模型损失函数如下

ESMM很好地利用了用户行为的顺序依赖性,即点击和转化存在顺序先后关系,如果发生转换其之前必然会发生点击。这一点可以从损失函数看出,损失函数分为两部分,分别是CTR和CTCVR任务的损失。同时这两个任务都是在被曝光的数据集上训练的,很好地解决了训练与预测数据分布不一致的问题。
模型中CVR子网络和CTR子网络embedding共享,这使得CVR网络可以从曝光但未点击的数据中学习,有效缓解数据稀疏的问题(因为CTR任务训练样本比CVR任务训练样本多很多)。

结果

作者根据淘宝日志做了一个数据集并用多个模型在该数据集上测试,ESMM取得了最好的效果,相比与基础模型,在CVR和CTCVR任务上分别有2.56%和3.25%的提升。

总结

本篇论文是偏工程性的论文,是我在看书过程中偶然发现的一个知识点对应的论文,总体来说就是解决之前转化率预估模型的训练与测试数据分布不一致和数据稀疏性问题。比较有亮点的地方是作者利用了用户行为具有顺序性,使用CTR与CTCVR两个辅助任务估计出CVR,解决了估计CVR的两个问题。很多创新点需要根据实际情况去考虑,站在用户的角度去考虑,要为了解决某个问题去想方法。本文内容较为简单,提出的创新点也通俗易懂,但确实非常有效,在一定程度上解决了问题。

posted @ 2022-01-14 15:11  South1999  阅读(112)  评论(0编辑  收藏  举报