信息茧房、filter bubbles或曝光偏差

https://mp.weixin.qq.com/s/ZgGbctgV3WsnnqQ0nsDn5w

《KDD'22 | 阿里: 基于EE探索的精排CTR预估》

现有的精排模型主要在收集的曝光数据上进行训练，大多面临着严重的feedback-loop问题：即：模型在曝光数据上进行训练，然后展示items给用户，收集到的曝光item数据又会作为模型的输入进行更新，长此以往曝光偏差和马太效应会越来越严重，模型很容易陷入“自嗨”状态，只对头部ITEM学习充分，造成大量新ITEM或长尾ITEM无法被正常学习，预估置信度低，得不到正常的曝光机会。很可能推荐用户已经不感兴趣的item，影响用户体验。

为了证明曝光量和模型预估分之间的关系，作者画了一幅图，画出真实点击率和曝光量之间的关系。可以看出，在阿里这个场景下，一个新的item需要平均1W次曝光点击率才会收敛。换句话说，曝光在1W次以下，点击率可能都不是置信的，存在低估的可能，和其真实点击率相去甚远。

工业界面对这种问题，常见的方法是通过冷启动、多样性、探索与利用(EE)等策略。本文主要研究EE问题。对于探索与利用，常见的比如UCB，汤普森采样等，其本质原理在于，给予模型预测值不确定性大(比如预测值置信区分宽度)的item曝光机会，再基于用户的行为反馈快速筛选出高价值的item，淘汰低价值的item，最终item的模型预测值会收敛到其期望值附近。实际上是在模型预测准确率和预测不确定之间做权衡。

这篇文章整体上还是非常有意思的，在精排模型里直接加入这种探索模块做EE，相较于以往在精排后置链路中做EE策略有很大的不同。既能够保证CTR预估精准，还能够显著解决长尾、冷启动item的推荐，同时探索机制能够缓解系统的feedback loop问题。未来实际上可以考虑在召回、粗排等链路也加入这种探索机制。

posted @ 2022-06-27 17:27 blcblc 阅读(168) 评论(0) 编辑收藏举报

刷新页面返回顶部

笨鸟居士的博客

信息茧房、filter bubbles或曝光偏差

公告