火山引擎VeDI:A/B实验如何应用在APP推荐系统中?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
在移动互联网飞速发展的时代,用户规模和网络信息量呈现出爆炸式增长,信息过载加大了用户选择的难度,这样的背景下,推荐系统应运而生,为用户提供个性化的内容推荐。推荐系统在不断迭代中,其算法、策略、特征、功能和用户界面时常得到更新和优化,其中推荐算法的调整尤为关键。然而,由于深度学习模型的广泛应用,推荐算法调整后的用户体验和效果难以通过经验直接判断。
为了更准确地评估和优化推荐系统,A/B实验成为了一个不可或缺的工具。A/B实验能够量化各项指标的变化,从而对推荐系统的效果进行科学评估,并为后续的优化提供数据支持。本文将以火山引擎数智平台VeDI旗下的A/B测试平台(DataTester)为例,介绍字节跳动如何使用其能力,持续实现推荐系统的精准优化。
推荐系统的本质是连接内容和用户,它构成了 <内容,推荐系统,用户> 的三元组,A/B实验也围绕此三元组展开。下方介绍了推荐系统三元组中,最常使用A/B测试的场景集合,企业可对应到自己的推荐系统中作为参考。
在字节跳动的推荐系统实践中,A/B实验在内容侧可以进行内容池优化、内容打标优化、视频封面模型的优化;用户侧(指产品的用户应用方面)可以通过A/B实验实现功能优化、性能优化、UI改进等;而在推荐系统方面,可以使用A/B实验的维度更多,例如多路召回优化、粗排和精排模型迭代升级优化、模型多目标融合优化、重排多样性/兴趣探索优化、广告收入优化等等,可以说,在推荐系统中,万物皆可A/B实验。
需要指出的是,在进行推荐系统内容侧A/B实验时,例如信息流产品可能会做作者发布视频奖励、视频清晰度调整等,改变的是内容侧的属性,但业务中通常观察的是大盘用户侧的指标。在进行这类实验时,注意转化为用户侧实验并辅助观测内容侧指标来评估,权衡用户侧和内容侧的综合收益后再决策是否上线。以视频带货推荐为例,商家分润规则调整仅对实验用户生效,通过对比实验组与对照组的指标差异评估对大盘的影响的同时,可以创建并观察商家入驻率等内容侧指标的变化。在大盘收入指标不变、商家入驻率指标有提升,甚至大盘收入指标微跌、商家入驻率显著提升的情况下,都可以发布上线。
另一个注意点是,A/B实验上线后,业务会频繁地查看分析实验指标。有的实验在开启后前几天可能出现指标下跌,这种情况下不建议立即关闭实验,因为在实际实践中,遇到过很多起初指标下跌、后续慢慢回涨的情况,比如在一些信息流平台的内容的多样性策略实验中,当增强兴趣探索后,短期可能会因为探索而出现用户不感兴趣的内容变多,导致消费时长下跌;但从长期来看。探索到更多用户兴趣后,用户黏性更强,用户消费时长也会慢慢回涨,且更有益于平台生态。因此在面对实验开始指标下跌的情况,一般会建议继续实验至少一周以上,覆盖观察一个完整周后再进行评估会更加准确。
在查看指标时,企业可以多关注实验指标下钻分析结果,例如关注不同性别、不同年龄层用户的指标变化,有的产品也会关注不同活跃度用户、特别是新用户和低活用户的指标变化趋势,因为这类用户更决定了产品未来的增长。在DataTester中,可以借助用户属性过滤功能,查看指标的下钻分析数据。
火山引擎DataTester作为火山引擎数智平台VeDI旗下的核心产品,源于字节跳动长期的技术和业务沉淀。目前,DataTester已经服务了包括美的、华泰证券、博西家电、乐刻健身等知名品牌在内的上百家企业。这些企业通过不断进行的A/B测试和优化迭代,提升产品与服务质量,从而实现业务持续的优化和增长。
点击跳转火山引擎A/B测试了解更多