浅谈ABtest
1. 什么是ABtest
简单来说,就是就是在产品正式全面迭代之前,为同一个目标制定不少于两个的方案,将用户分流至对应方案内,在保证每组用户特征相同的前提下,根据用户的真实数据反馈,帮助产品决策。
2. ABtest解决了什么问题
对一个产品设计,已经能难直观判断是否真的是“优化”,这个改变,可能是文案的优化、按钮的颜色、界面的布局或者功能的迭代,也可能是推荐算法。
AB Test可以辅助设计者通过实际用户的使用反馈,来确定到底哪个方案更优。
3. ABtest实现原理
3.1. 实验步骤
实验的几个基本步骤一般如下:
3.2. ABTest流量分配
目前业界应用最多的,是可重叠分层分桶方法。具体来说,就是将流量分成可重叠的多个层或桶。因为很多类实验从修改的实验参数到观察的产品指标都是不相关的,完全可以将实验分成互相独立的多个层。
流量分配的规则:同层互斥,跨层正交
同层互斥:
在同一个实验层(即,同一个实验位置)做实验,每个实验之间的流量是不重合的,也称为互斥。
例如:对button做样式实验:
实验1:测试button颜色
实验2:测试button上文案颜色
他们的用户可以需要放在同一层用互斥的流量。因为假设button为白色,文案颜色也是白色时,用户可能就看不见文案了。
跨层正交:
是实验科学性的重要保证,和科学复用流量的关键环节。层和层之间的流量是复用的,有重叠的。
例如:
banner、窗帘、不同的产品模块、元素都有自己的实验层,可以满足多人在不同地方同时做实验。
Q:在流量复用的情况下如何保证每个实验的实验版本和对照版本是可以可对比的呢?
举一个例子:
现在有两个实验层:banner实验层,tab实验层
在banner实验层中,有一个实验,测试banner的样式
在tab实验层中,有一个实验,测试tab的展示顺序
大家可能会问,banner的样式实验对tab顺序实验有什么影响呢?
● 不影响tab实验的对照版本和实验版本的对比
● banner样式的改变对tab实验的对照版本和实验版本的影响是一致的,这个由正交分流来保证
4. AABB对照
通常实验的时候,我们会设立AABB实验,两个实验组和两个对照组,这是为了减少流量不均衡而导致的决策风险。
一方面,通过AA实验或BB实验,我们可以验证两个实验组之间的流量是否均衡。另一方面,当发现实验B的效果指标比实验A好的时候,有时候我们会质疑,是不是刚好划分到这一桶里的实验的用户刚好有较好的效果,而不是实验B的策略而带来的结果。因此,通过AA实验,我们可以提高我们实验的准确性,如果本身因为流量的倾斜而带来数据指标的倾斜,这种情况下我们可能错误认为某个策略更优,从而得出错误的决策。
5. 什么是一个好的ABtest
● 有明确的测试目标:【立即参加】和【加入学习】哪个文案转化率更好?
● 有清晰的衡量标准:订单转化率&按钮点击率。
● 有精确的测试结果:如【立即参加】和【加入学习】,点击率在90%的置信区间内没有差别?
6. ABtest的例子
6.1. wesing ABtest平台流量分配:
1. 参考:什么是 A/B 测试? - 知乎
3. A/B测试系列文章之怎么计算实验所需样本量 – Jeff的数据科学笔记