浅谈“数据敏感度”
先从身边的一件小事说起:
7月初交水电费的时候发现用水量大幅上涨——6月份竟然用了9吨水——之前每个月都是在3-4吨左右,这期间用水习惯、计费周期并没有发生变化。“用水量”很可能有问题。用水量来自水表的读数,水表读数异常可能有两种情况:①水管有漏水(水表出口的那头),②水表的读数不准。水管漏水的话,那么不用水的时候表也会转,这个假设很快就通过试验排除了。接下来验证水表的跑数,接连3天下班后查看一下水表数据,发现水表跑得真得好快啊,平均一天能跑半方(吨)水,一个月能跑15方,明显不科学啊。后来把这个事情反馈给房东,就把水表换掉了。
从上面的案例中可以看出,如果没有注意到之前每个月的用水量,那么很可能不会发现水表有问题——对数据敏感不是数据分析师的专利,而是日常生活、工作中,人人都需要也很容易习得的能力。
对数据敏感的起点是“注意力”——要有意识的去感知和记录一些数据,做到“心中有数”是对数据敏感的基础。
有一些数据和我们息息相关,自然而然会投入更多的注意力,比如:
-
像文章开头那样,会注意到水电费波动;
-
如果你处于减肥中,那么会关注体重数据以及每天摄入的卡路里;
-
如果你常去菜市场买菜,就会知晓各类蔬菜的价格范围,也能明显感知到菜价的上涨或下降;
-
如果你玩股票,那么对股票价格的波动就会比较敏感;
-
你应该很清楚上班通勤单程需要花费的平均用时,毕竟要根据这个时长来设定自己出门时间点(通常你不会想迟到);
“数据敏感度”可以定义为对数据的感知、计算、理解的能力:
-
“感知”指能从生活或者工作场景中发现数据;
-
“计算”是能依据某种规则计算得到某个数据;
-
“理解”则是能发现数据背后的含义,比如从数据中发现规律、探索数据间的关系、通过数据发现业务问题等;
注:以上只是笔者的理解,仅供参考。
需要用到“数据敏感度”的场景可能涉及到如下几方面:
-
鉴别真伪,能看出数据是不是有猫腻;
-
评判好坏,从数据指标上评判事物的好坏以及是否异常;
-
数据关联,基于特定的场景,发现数据间的关联;
-
问题定位,通过数据来诊断特定问题;
-
提炼规则,从数据中发现某种模式或者趋势;
-
数据预估,基于已知的数据推算未知的目标数据;
1 鉴别真伪
e.g. 判断如下描述的真伪:
-
200名学生参加优秀学生干部选举投票,在5位候选人中投票,一人只能投一票(不能弃权),最终得最高票者的支持率为88.7%;
-
某校AB两院系录取学生,已知两院系的男生录取率都高于女生,那么整体而言两个院系的整体的男生录取率都会高于女生;
-
某电商平台交易金额环比增长30%,其中老客交易增长50%,新客交易增长20%;
数据上的真伪主要从以下几个方面判断:
-
采样数据覆盖的范围,可以理解为筛选数据的条件有哪些——比如具有某种特征的用户(e.g.年龄、性别),某个特定的业务场景或业务环节等;
-
指标的计算口径是啥,是否适用于当前场景?e.g. 比率指标要看分子分母,对比的时间周期等;
-
计算得到的指标是否准确?通常的做法有两种——①和某个参照值(或者区间)对比;②指标验算,看能否还原这个指标;e.g. 某APP声称自己的日活(DAU)是千万级的,你事前查过该app在应用商店的累计下载量才小几百万,那么对方的数据可能有问题。
-
基于数据推断的结论是否正确?通常结论推广的范围不能超出采样数据覆盖的范围,此外还需要注意区分相关和因果关系、人为因素和自然因素等。
注:更多可参考用数据说谎How to Lie with Data
2 评判好坏
假设被告知如下数据:
-
某电商平台近1月的首单支付成功率为80%;
-
某产品的付费转化率为30%;
-
某平台的近30天的平均DAU为500W;
如果没有相应的业务数据作为参照,很难判断业务表现的好坏——这个数据在行业中属于什么位置?正常还是异常?相比于历史数据比是增长还是下降?
好坏的评判来自“对比”,“对比”需要相应的参照物,可能是一个值,也可能是一个区间。
基于参照物,我们能发现一个指标的相对好坏,或者和预期的数据是否存在偏差。
常见的对比分为两类:
-
横向对比:和类似事物对比,和行业的平均值、最高值、最低值对比,e.g.上面提到的电商首单支付成功率可以和行业整体水平对比,也可以和行业的TOP产品对比;
-
纵向对比:和历史数据对比发现当前数据的偏离度,e.g. 同比、环比;
3 数据关联
e.g. QuestMobile关于短视频分析的报告中,提及短视频获得更多注意力资源(月人均使用时长)的同时,其他泛娱乐行业的用户使用时长出现了下降——用户的注意力是有限的。
数据关联是通过指标的联动性发现事物的关联性,涉及3种关系:
-
因果推导,比如气温的增长和冰激凌的销量。
-
共变关系,比如不同成分间的此消彼长(e.g.上述举例),或者由潜在因素同时触发了两个以上数据的变化(e.g.下雨天,打车的数量和雨伞的销量都会增加)。
-
场景协同,把不同维度下的数据当做一个个小模块,然后将这些模块拼接成一个完整的场景,有点类似于我们通过各个维度的数据来描述一个人,然后还原出这个人的真实生活状态。
4 问题定位
指通过数据来诊断特定问题,包含两种情况:
-
自下而上,从数据中发现问题,e.g. 你发现交易的增长放缓,进而发现主要是新客数量降低,进而找到某个新客引流渠道的量大幅减少,那么你可以假设是因为这个渠道的问题最终导致了交易的变化;
-
自上而下,如果某事物(业务)出现问题,那么对应在数据指标上会有怎样的表现?e.g. 如果支付成功率降低,那么可能是用户放弃支付率增加,也可能是支付通道的成功率下降等;
注:更多参考从“Δ值”谈数据分析
5 提炼规则
典型案例是序列值填充的题目:
-
1, 2, 4, 8, __, 32
-
1, 3, 6, __, 20, 37
-
11, 27, 66, __, 291
提炼规则是指从数据中发现某种模式或者趋势,上面提到的数据关联中的因果推导和共变关系也属于数据的规则。
不过,这里更强调的是两方面:
-
在时间维度上发现周期性、增长性或者生命周期等有规律可循的痕迹;
-
在空间维度上则是构建数据指标之间的函数关系,比如出行平台可以基于天气、是否节假日、是否工作日、出发地、目的地、叫车时间等数据指标来预测得到从出发地到目的地的叫车人数;
在提炼规则的过程中需要经历多次“提出假设-验证假设”的过程。
6 数据预估
基于已知的数据推算未知的目标数据,部分要依赖于上面从数据中提取到的规则,另一方面还要依赖于对于目标数据的定义和拆解。
这部分的内容就不多讲了,可以参考先前写的两篇文章:
如何培养数据敏感度?
-
留心身边有价值的数据,不管是日常生活,还是工作需要(e.g.业务数据、行业数据报告等),只要数据对你有价值,那就有必要付出你的注意力(去记住它理解它);
-
记住“参考值”,比如某数值的均值或者范围等,工作中则还会关注业务数据、行业数据(通常关注均值、竞品或者TOP产品的数据)。e.g. 某电商平台的日订单量,客单价,每日交易金额,放弃支付率等。
-
关注“异常值”,指标波动通常意味着有重要的事情发生,挖掘波动背后的“故事”,很可能会发现减少损失或者提升收入的点;
-
训练自己的批判性思维,外部给到的数据的真实性都值得怀疑,必要时要进行“交叉验证”;
对于数据分析师而言,还要做到:
-
熟悉业务流程,清楚了解业务的环节,不同环节对应的关键指标,哪些因素在什么场景下会影响业务指标,哪些是正/负向因素,哪些是可操作的因素等;
-
熟悉数据指标的算法和用法,指标是计算口径是怎样的?适用的场景是啥?
-
数据化思考,如何将业务概念“翻译”成数据语言?如何用一系列数据去证明某个结论(自上而下)?如何从多个数据中发现其中的业务含义(自下而上)?
对业务的理解是数据分析发挥效用的基础,分析师对业务数据的敏感度通常是从报表中来,从需求中来,从数据报告中来。
学习任何一项技能,勤动脑,勤动手,始终是不二法门,“数据敏感度”的培养也不例外。
共勉。
本文完。
本博客所有文章仅用于学习、研究和交流目的,欢迎非商业性质转载。
转载请注明作者及出处