从“Δ值”谈数据分析
Photo by Samuel Zeller on Unsplash
数据分析的起点通常来自于“Δ值”。
不妨如此定义Δ值:
-
在某时间点(段)某群体的某项指标和其他群体的差异(横向对比),e.g. 这次期末考试A班的数学平均分低于B班,人群A和人群B的同期客单价存在显著差异;
-
某群体在两个或多个时间节点上指标存在差异(纵向对比),e.g. 人群A本月KPI环比上月有较大的波动,同一个菜市场这周的菠菜均价高于上周;
-
更宽泛地说,当前状态和目标值的差距也是Δ,e.g. 年初的小目标们还有很大一部分仍然是目标;
由Δ值触发的分析流程一般如下:
-
发现Δ值,基于监控报表(或者Dashboard)或者主观判断(直觉),e.g. 昨日交易成功率环比前天下降了2%(日常波动在1%以内);
-
定位Δ所在环节,“人货场”哪个环节?前端入口、产品流程、细分人群?,e.g. 成功率下降的主要因素在于新客(老客的成功率基本稳定),而昨日新客人数占比从前天的4%增加到10%;
-
提出假设并验证引发Δ值的因素,产品问题还是运营问题?因素是否可控?e.g. 假设1——引流渠道带来的新客质量较差,假设2——对于新客的优惠力度或覆盖范围较之前有下降,对于假设1,需要对比昨前两天不同引流渠道从曝光-->下载app-->注册--> 下单 --> 支付成功各环节的转化率,对于假设2,则要看登陆新客数-->优惠领取或发放的新客数(优惠金额)-->使用优惠的新客数(优惠金额)的转化情况;
-
基于问题提出可落地的改进方案,首先要保证要改善的因素是可控的(其背后的用户行为是可控的),提出的方案通常涉及两方面——产品和运营,产品上主要考虑入口优化、产品转化、产品策略等因素;运营上则考虑运营活动的人群选择、入口选择、覆盖范围、人均成本等因素。当然,提出的方案要结合关注的指标(e.g.某个KPI指标)。
-
跟进方案落地并监控效果,如果你的方案得到产品或运营同事的认可(也可能需要优化),接下来就是要落地实施,实施的时候如果条件允许可以选择做A/BTest,另外方案上线的时间点不要太特殊,不然可能混淆一些不可控的外部因素,对结果的验证会有较大影响。
第1步,发现“Δ值”
需要注意的点:
- “Δ值”来自对比,可以是横向(空间维度)的对比,e.g.不同渠道终端、不同Banner、不同活动、不同用户群等,也可以是纵向(时间维度)的对比,常见的纵向对比是同比和环比,对比的周期可以是天、周、月、季、年等,具体看业务场景。
- Δ值应和KPI强关联,需要以KPI为基础、按影响因素层级拆分、颗粒度足够细的报表作为支持,总之,把KPI视为因变量Y,那么Δ值应该是对应了其中一个或多个影响Y的自变量X。
- 关注可操作的“路径”,其中有两个关键词——“可操作”、“路径”,“可操作”意味着因素可控,如果因素不可控(比如外部市场发生变化),通常爱莫能助。“可操作”还意味着指标背后代表的是可以通过运营或者产品来进行引导和强化(或弱化)的用户行为,即“可操作”的用户的行为。“路径”则立刻理解为产品上的转化流程(e.g. 用户如何一步一步完成一笔订单交易)以及运营上关注的用户生命周期(e.g. 新客 --> 活跃(复购) --> 忠诚 --> 流失)。
第2步,定位“Δ值”所在环节
“差值”出现在什么地方,或者大头来自哪里?
差异的归因为外因和内因两个方面:
外因:节假日、特殊事件/活动(e.g.线上的热点事件、线下的活动等)、生效政策等,外因通常不可控;
内因:主要在产品、运营上看有什么变动。
-
产品:前端各入口流量有没有发生变化、各环节转化率如何、有没有产品的改动(版本上线、功能改版、策略改动等)、产品或服务有没有改动(品类结构、会员政策等);
-
运营:需要关注哪类人群、对应时间点有没有运营活动的上线或下线?运营活动覆盖范围、力度如何等;
定位Δ值时拆分的维度可以参考前端入口、转化环节、人群分类、“人货场”、“5W2H”、波特5力等。
第3步,提出假设并验证引发Δ值的因素
“漏水的地方找到了,但是什么导致了漏水呢?”
第2步是定位到问题点,但具体的原因可能还需要继续挖。基于发现的问题提出你的假设,找到验证假设的方法和对应的数据指标。
验证假设时需要注意的点:
1. 指标量化,涉及到的指标是可量化且和Δ值对应的因素是高度关联的;
2. 注意识别模式的“稳定性”:
- 周期循环,历史数据是否有类似情况,e.g. 每年9月的时候电脑品类的交易会上升,为什么?升学季家长给孩子买电脑;
- 特征迁移,保持变量X1不动,改变其他自变量,看X1->Y的关系是否稳定(此处未考虑有第三方变量的调节效应),e.g. 看具有同一特征的不同人群在指标Y上的表现;
- 对比试验,控制非考察因素设计A/B Test,验证变量x1和Y的关系。
3. 对比时排除干扰因素,时间、人群、场景是否具有可比性。
- 时间上要注意特殊时间段,例如节假日的数据一般不和普通日对比,工作日的数据和周末的数据也可能存在差异(人的行为在这两种时间条件下不一样);
- 人群上需要注意幸存者偏差以及跨时间匹配,注意样本的匹配性;
- 另外,要注意场景依赖——不同业务场景下的业务的形态或者人群可能本身就不同。
第4步,基于问题提出可落地的改进方案
如果把产品和运营看做是“搭梯子”的过程,分析师通常需要帮助业务方选择为不同的人群选择不同的地方在合适的时间搭不同的“梯子”,“梯子”最终通往KPI。注:通常产品和运营也是制造“梯子”的人。
当你做的需求多了,和业务的同事接触多了,自然会知道常用的“梯子”有哪些,不同的“梯子”可以解决什么问题,比如拉新、促活、促复购、挽流失这些场景下需要哪些不同的“梯子”。
找“梯子”的过程可以参考如下:
-
基于关注的指标(KPI),区分优质、一般群体;
-
优质群体和一般群体在什么特征上存在明显差异;
-
哪些特征和关注指标(KPI)有较强的关联;
-
哪些特征是可操作的(产品和运营);
-
把这些特征按优先级排序,找到每个因素下可以使用的“梯子”。
-
可操作的路径如何选择,需要产品或运营的支持方案是什么?
-
设计A/BTest,验证效果(是否能较好地将一般用户转化为优质用户)。
简言之,就是找到从现状到目标的可操作分步步骤,产品主要在前端入口和转化环节上搭梯子,运营则通常结合运营活动对不同人群不同生命周期进行引导。e.g. 刚下首单的新客怎么转成“持续输出”的老客,用什么优惠活动,怎么触达用户,需要几次优惠,优惠力度如何。
第5步,跟进方案落地并监控效果
恭喜走到这一步,数据分析师最重要的产出也是这一步,监控业务、发现问题固然重要,但是推动方案落地、改善业务才算“达成”目标。
注意点:
1. 小心地设计对比方案(验证效果),横向(A/B Test)还是纵向(同一群体追踪)?确保分析思路整体无懈可击。可以用数据报告反推分析过程,再用分析过程反推方案设计。想一想数据报告PPT的逻辑架构是什么?每一页PPT要放什么数据来证明方案的效果,如何对比,要控制哪些影响因素,是否对其他KPI有影响。
2. 考虑时间成本和人力投入,按照精益思想,最好是能逐步验证(比如灰度放量)。按照“增长黑客”思想,应该保持和整体业务的一致性和敏捷性(轻型应用、快速开发、快速上线),有时候可能还需要很强的说服力来搞定产品经理和开发童鞋。
3. 对分析复盘,之后除了写数据报告,还应该对本次分析复盘。分析过程中,遇到什么困难?哪些东西自己先前没想到?获得的启示是什么?哪些操作验证是有效的?整个过程中还有哪些待改进的地方?这些复盘不仅有利于沉淀个人经验,提升业务技能,写简历的时候也更能言之有物。
KPI总是超越现状(大部分时间都是如此),“Δ值”总会出现,每个“Δ值”背后可能都隐藏一个机会,一个提升业务的机会,一个提升分析师能力的机会。
本博客所有文章仅用于学习、研究和交流目的,欢迎非商业性质转载。
转载请注明作者及出处