信息茧房、filter bubbles或曝光偏差
https://mp.weixin.qq.com/s/ZgGbctgV3WsnnqQ0nsDn5w
《KDD'22 | 阿里: 基于EE探索的精排CTR预估》
现有的精排模型主要在收集的曝光数据上进行训练,大多面临着严重的feedback-loop问题:即:模型在曝光数据上进行训练,然后展示items给用户,收集到的曝光item数据又会作为模型的输入进行更新,长此以往曝光偏差和马太效应会越来越严重,模型很容易陷入“自嗨”状态,只对头部ITEM学习充分,造成大量新ITEM或长尾ITEM无法被正常学习,预估置信度低,得不到正常的曝光机会。很可能推荐用户已经不感兴趣的item,影响用户体验。
为了证明曝光量和模型预估分之间的关系,作者画了一幅图,画出真实点击率和曝光量之间的关系。可以看出,在阿里这个场景下,一个新的item需要平均1W次曝光点击率才会收敛。换句话说,曝光在1W次以下,点击率可能都不是置信的,存在低估的可能,和其真实点击率相去甚远。
工业界面对这种问题,常见的方法是通过冷启动、多样性、探索与利用(EE)等策略。本文主要研究EE问题。对于探索与利用,常见的比如UCB,汤普森采样等,其本质原理在于,给予模型预测值不确定性大(比如预测值置信区分宽度)的item曝光机会,再基于用户的行为反馈快速筛选出高价值的item,淘汰低价值的item,最终item的模型预测值会收敛到其期望值附近。实际上是在模型预测准确率和预测不确定之间做权衡。
这篇文章整体上还是非常有意思的,在精排模型里直接加入这种探索模块做EE,相较于以往在精排后置链路中做EE策略有很大的不同。既能够保证CTR预估精准,还能够显著解决长尾、冷启动item的推荐,同时探索机制能够缓解系统的feedback loop问题。未来实际上可以考虑在召回、粗排等链路也加入这种探索机制。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
2017-06-27 解决spark数据倾斜的问题
2017-06-27 spark性能调优
2017-06-27 hadoop hdfs查看空间限额的方法 count
2016-06-27 valid-perfect-square
2016-06-27 water-and-jug-problem
2016-06-27 max-sum-of-sub-matrix-no-larger-than-k
2016-06-27 矩阵求和及Kadane算法