信息茧房、filter bubbles或曝光偏差

https://mp.weixin.qq.com/s/ZgGbctgV3WsnnqQ0nsDn5w

《KDD'22 | 阿里: 基于EE探索的精排CTR预估》

 

现有的精排模型主要在收集的曝光数据上进行训练,大多面临着严重的feedback-loop问题:即:模型在曝光数据上进行训练,然后展示items给用户,收集到的曝光item数据又会作为模型的输入进行更新,长此以往曝光偏差和马太效应会越来越严重,模型很容易陷入“自嗨”状态,只对头部ITEM学习充分,造成大量新ITEM长尾ITEM无法被正常学习,预估置信度低,得不到正常的曝光机会。很可能推荐用户已经不感兴趣的item,影响用户体验。

为了证明曝光量模型预估分之间的关系,作者画了一幅图,画出真实点击率和曝光量之间的关系。可以看出,在阿里这个场景下,一个新的item需要平均1W次曝光点击率才会收敛。换句话说,曝光在1W次以下,点击率可能都不是置信的,存在低估的可能,和其真实点击率相去甚远。

 

 

 

工业界面对这种问题,常见的方法是通过冷启动、多样性、探索与利用(EE)等策略。本文主要研究EE问题。对于探索与利用,常见的比如UCB,汤普森采样等,其本质原理在于,给予模型预测值不确定性大(比如预测值置信区分宽度)的item曝光机会,再基于用户的行为反馈快速筛选出高价值的item,淘汰低价值的item,最终item的模型预测值会收敛到其期望值附近。实际上是在模型预测准确率和预测不确定之间做权衡。

 

这篇文章整体上还是非常有意思的,在精排模型里直接加入这种探索模块做EE,相较于以往在精排后置链路中做EE策略有很大的不同。既能够保证CTR预估精准,还能够显著解决长尾、冷启动item的推荐,同时探索机制能够缓解系统的feedback loop问题。未来实际上可以考虑在召回、粗排等链路也加入这种探索机制。

 

posted @ 2022-06-27 17:27  blcblc  阅读(168)  评论(0编辑  收藏  举报