豆瓣的一个关于“周X伦在微博超话没有数据流量,他是不是没有蔡X坤火”的帖子引爆了Jay Chou粉丝与KUN的粉丝的流量之争。两家粉丝以背后最大赢家新浪微博为载体,打响了一场被各大媒体争相报道、吃瓜路人津津乐道的数据流量之战。
用ABtestdech得出结论
一:什么是A/B测试?
统计学角度来讲,A/B测试是统计学里双样品假设检验的一个应用。举例来说,就是为了同一个目标,假设我们制定了两个行动方案(比如两个网页版本)。在A/B测试实验里,让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下用户的使用情况,最后比较哪个方案的效果更好。
二:A/B测试是做什么的?
A/B测试仅仅用来看阿周和阿坤的人气高低吗?
当!然!不! A/B测试的第一个重要应用是帮助产品开发。 假设你现在是某个网站的产品经理,你有一个目标,需要让这个网站主页的活跃度的某一些指标进行提升。这个指标可以是访问量、人数,或是购买率等等。如何提高这些指标?我们需要提出一些对产品改进的方案。比如说,我可以认为,如果把网站的主题颜色从红色改成绿色,用户在主页上的点击率可以提高。这个就是你提出的一个假设。 下一个问题就是,你这个假设是否正确?如何判断?我们需要通过做实验来判断。 操作方法是,我们把用户分成随机的两组,一组是看到红色主题的页面,我们把他叫做对照组。另外一组看到绿色主题的页面,我们把它叫做实验组。随后,我们对实验组、对照组这两组用户同时观测,去看看他们的用户指标有没有什么变化。 注意,实验组和对照组之间唯一的区别就是,实验组看的是绿色,对照组看的是红色。两组之间的观测结果如果有任何明显的差别,那基本上可以认定是颜色的变化导致了这个差异。比如,如果我们观测到实验组比对照组的结果显著提升,那就证明了通过改变主题颜色,我们的确提升了产品的指标。
A/B测试的第二个重要应用是市场营销
市场营销是一件很有意思的事情。在大数据出现之前,市场营销效率低下。站在超市门口发出大量折扣券的服务员并没有办法知道接收服务券的这些用户是谁,有哪些人看了这些服务券,又有哪些人最后完成了购买。而现在的互联网行业能够精确得到这些数据,所以可以通过做A/B测试的方式去改进优化市场营销的策略。
一个经典的市场营销手段是发邮件。比如我是某电商老板,我打算给用户发邮件显示一个折扣信息:为了欢度七夕,商场所有的货品都打折50%。市场营销的运营人员知道了这个主题,但无法得知邮件具体内容,也不知道怎么去写文案。如果不做A/B测试,市场营销人员只能凭借直觉或经验去写文案。但是有了A/B测试之后,通过做实验用数据去说话,让数据去告诉我们哪种文案是更容易达到我们想要的效果。
我们可以把用户分为三组,抽1/3的用户给文案一,1/3的用户看文案二,1/3的用户看文案三。比较这三个组看哪个组用户点击率或者转化率比较高,我们就可以得知哪一类的文案的效果更好。
目前的A/B测试与互联网行业挂钩居多。而A/B测试的来源其实是传统行。制药公司需要做非常精确的A/B测试来判断药品是对病人或是治愈疾病到底有无效果。如果要去研究某个公共政策对降低这个地区的犯罪率是否有帮助,我们需要用严格的A/B测试的方法去作出判断。
浓缩成下图:
有一句话能够生动形象地说明了A/B测试的具体情境:”当你访问 facebook 的页面时,你已经同时身处 10 个 A/B 测试之中了。”
三:A/B测试的理论基础
我们将通过上面提到的帮助产品开发的例子说明A/B测试的理论基础。
首先,在试验过程中存在2个假设,这两个假设的关系我们需要先弄清楚。
原假设:我们希望通过试验结果推翻的假设,在这里是:如果把网站的主题颜色从红色改成绿色,用户在主页上的点击率不能提高。
备择假设:我们希望通过试验结果验证的假设,在这里是:如果把网站的主题颜色从红色改成绿色,用户在主页上的点击率可以提高。
对应开头我们想要探究的问题,我们也可以得出关于问题的两个假设。原假设:Jay Chou和KUN的人气没有差别。备择假设:Jay Chou和KUN人气有差别。
回到关于产品开发的例子,提出假设如图:
然后,描述用户点击率。先看对照组:假设对照组里有50个用户,这50个用户的每个用户在一定时间内都会以一定概率的点击这个网站。如何定义点击概率?比如某用户在一天之内访问了我们的网站十次,但是10次访问中只有5次点击了主页的按钮,该用户的的点击概率就为50%。
现在我们得到了对照组所有用户的点击概率。三个用户老王,老张,小李的点击率分别是15%,18%和7%。所有用户按照点击率从小到大排列,然后分进一些区间。比如说我们可以把点击率0%-5%的用户分到区间1,把6%-10%分到区间2里。 然后,我们去统计每个区间出现用户的概率。看右边的表格,区间一用户出现的频率是7%,也就是说大概有7%的用户点击的概率是出现在0%到5%把统计出来的频率表格画成直方图,横坐标代表用户点击率,纵坐标代表用户出现频率。这个直方图来描述了对照组用户的点击率的概率分布。
同理可对实验组,就是看到绿色主题的用户画直方图。
接下来得出结论。对这两个图进行比较。如果这两个直方图重合度非常高,那么从统计上讲,实验组和对照组用户的行为差不多。所以我们没有理由认为改变颜色会对我们的用户行为造成本质影响。
另外一种情况,如果这两组的用户的分布差的比较远,我们认为改变颜色这件事情造成了用户行为造成变化,所以我们原来的假设是成立的。
另外一种情况,如果这两组的用户的分布差的比较远,我们认为改变颜色这件事情造成了用户行为造成变化,所以我们原来的假设是成立的。
四:A/B测试的主要步骤
那么A/B测试的主要步骤是什么呢?
-
实验设计
-
运行试验
-
测量结果
实验设计是A/B测试中最重要的一环。ab测试不像其他的如统计概率等问题,面试者可以提前准备或者通过训练能够得到答案。尤其是实验设计这一块,很多的东西在网站或者教学中是无法获得的。因为很多关于实验设计的步骤都只有在真实的工作操作中才能够得到一些经验,所以当面试官询问面试者关于ab测试的实验设计时,面试官能够有效判断面试者是否有真实工作经验。所以有俗话说:工作面试中99%的问题都是试验设计问题。
实验设计有如下四个要素:
- 选择样本
- 选择观测指标
- 确定样本数量
- 确定试验运行时长
拿如何选择观测指标举例。指标的量化尤为重要。回到上面的改变网站主题颜色对提高用户点击有帮助的例子,我们尝试用一个数学公式描述点击事件从而达到指标量化;由此观测指标可以是:平均每个用户的点击率、访问网站的次数等等。
五:A/B测试该怎么做?
这张图描述了A/B测试的典型工作流程。
关键绩效指标(KPI:Key Performance Indicator)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。
NPS(Net Promoter Score),净推荐值,又称净促进者得分,亦可称口碑,是一种计量某个客户将会向其他人推荐某个企业或服务可能性的指数。它是最流行的顾客忠诚度分析指标,专注于顾客口碑如何影响企业成长。通过密切跟踪净推荐值,企业可以让自己更加成功
在AB测试工作的一开始,我们首先需要确认精细到KPI的一个目标,如提升客户满意度的值。在之后,该KPI目标会作为我们AB测试比较A组和B组效果的一个衡量指标。 第二步是提出假设。比如在我们这个例子里,假设就可以是发送红包补贴,是否可以提升用户的满意度?如果提升,我们在这里就表示成X1大于X2,X1是发送红包的实验组的用户所给出来的满意度平均分,X2是对照组所给出来的满意度平均分。之后得出假设的对立情况:X1等于X2,即发送红包对于提升用户的满意度没有影响。有了这两个假设之后,我们就可以确认我们AB测试中两个最基本的假设,H0原假设和H1备择假设。 基于这两个假设,我们继续设计AB测试的实验。通过一定计算,选取合适的用户样本来进行实验,来选取我们合适的实验参数。 设计好实验后,我们就可以把这个实验通过产品的改进去上线了。上线一段时间,我们最终可以检验和分析我们的实验结果。
不管这个实验的效果如何,我们总能得到新的信息。基于这些新的信息的进行分析,往往能得到新的假设和新的想法;根据这些新的假设和想法,我们再进行一轮新的实验。如此循环往复,形成了一个正向积极、不断改进产品或运营方式的一种流程。
六:如何利用A/B测试检验我伦和阿坤的人气?
首先,我们对人气做一个小的定义:在人气可以通过网站点击率的高低来体现。在两个网站中,网站点击率高的即为人气相对较高,人气低的网站点击率相应较低。接下来让我们做出两个假设。第一个假设是,Jay Chou和KUN的人气没有差别,相应地第二个假设是:Jay Chou和KUN的人气有差别。
我们选中两个网站,一个是关于Jay Chou的宣传网站,一个是关于KUN的宣传网站。当这两个网站在某娱乐版块同时上线后,寻找一批既不催周董发新专辑也不大喊“哥哥是仙子下凡”但又对娱乐圈有所关注的用户在同一时间段自主选择查看该娱乐版块,统计所得的网站点击率。
如果J的网站点击率大于(或小于)K的网站点击率,则在本实验中,J的人气大于(或小于)K的人气,阿周和阿坤的人气有差异,我们的第二个假设成立;如果J的网站点击率与K的网站点击率基本相当,则在本实验中,J的人气与K的人气相当,阿周和阿坤的人气没有差异,我们的第一个假设成立。
七:当然,数据不是万能的……
很多80,90后中老年粉丝们已经用尽洪荒之力开始刷数据了,J已经大胜。