A/B-test

A/B-test解读

A/B-test是为同一个目标制定两个方案，在同一时间维度，分别让组成成分相同（相似）的用户群组随机的使用一个方案，收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出最好版本正式采用。

使用A/B-test首先需要建立一个待测试的版本服务，这个版本服务可能在标题、字体、排版、背景颜色、措辞等方面与原有版本服务有所不同，然后将这两个版本服务以随机的方式同时推送给测试用户。接下来分别统计两个版本的用户转化率指标，然后根据样本数据进行显著性检验。

测试目的

页面（版本）的某一特定更新对转化率指标（如UV-线索转化率、UV-上架转化率、UV-成交转化率或者线索-上架转化率等）的影响效果。

A/B-test显著性检验

随机将测试用户群分为2部分，用户群1使用A方案，用户群2使用B方案，经过一定测试时间后，根据收集到的两方案样本观测数据，根据显著性检验结果选取最好方案。

为了下文方便说明，我们不妨设A方案为参考方案（或旧方案），B方案为实验方案（或新方案）。以下我们以xx二手车的线索-车辆成交转化率为例（注：所有数据均属虚构，仅做示例说明之用），假设进行A/B-test的时间是一周。

选取观测指标

建立原假设和备择假设

由于我们的期望结果是B方案所带来的线索-车辆成交转化率高于A方案所带来的线索-车辆转化率，所以原假设和备择假设如下：

构造检验统计量【5】

显著性检验结论

给定显著性水平为$\alpha$, 当$Z>Z_\alpha$时，拒绝原假设，认为B方案所带来的线索-车辆转化率高于A方案所带来的线索-车辆成交转化率，建议可以进行推广；当$Z\leq$$Z_\alpha$时，不能拒绝原假设，即认为B方案所带来的线索-车辆成交转化率不高于A方案所带来的线索-车辆成交转化率，建议暂不进行推广。

A/B-test实例

假设我们进行A/B-test一周，参考版本（通常默认是原始版本，简记为A）和实验版本（添加了特定改进的版本,简记为B），分别得到了1000个线索，A的线索-车辆成交转化率为7%，B的线索-车辆成交转化率为8%，如表所示：

在这儿，我们是肯定B比A版本所带来的转化率高呢，还是说这仅仅是由于一些随机的因素导致的这样的区别呢？我们严格按照A/B-test显著性检验过程进行如下计算。

1）选取测量指标

$N_A=N_B=N=1000$;

$\hat{P}_a$= 0.07, $\hat{P}_b$=0.08;

2)构建原假设和备择假设：

3).构建检验统计量：

我们可以计算得到Z=0.849105726，

4).显著性检验结论：

如果取显著性水平=0.5，则=1.644854，所以不能拒绝原假设，即认为B版本不一定比A版本所带来的线索-车辆成交转化率高。

如果我们将A/B-test的时间拉长，如两周时长的A/B-test分别得到5000条线索量；或者说同样做一周时间的A/B-test，但是测试的比例更大，分别得到5000条线索量。即 N=5000，且线索-车辆成交转化率保持不变。计算得出Z=1.89865812，在同样显著性水平下，可以拒绝原假设，得出B比A版本所带来的线索-车辆成交转化率高的结论。

上述结论是符合我们的主观感受的！在小样本量时，新版所带来的线索-车辆成交转化率高于旧版本所带来的线索-车辆成交转化率，其原因也有可能是受到随机波动等因素影响，故不能肯定地说明新版要比旧版所带来的线索-车辆成交转化率高；但在大样本量时，或者说长期来看，新版本所带来的线索-车辆成交转化率都稳定地高于旧版本所带来的线索-车辆成交转化率，我们有理由相信，确实新版本所带来的线索-车辆成交转化率高于旧版本所带来的线索-车辆成交转化率。