数据分析思维

5 数据分析工具

Excel——相关性分析

添加数据分析功能库到Excel数据选项卡中

Excel选项 >> 加载项 >> 分析工具库 >> "数据"工具栏会出现数据分析模块

相关性分析:做某个子产品时,回答子产品对大盘的贡献度或者说影响度,可以用相关性去回答

Excel——临界点分析(插入图表复杂功能)

临界点分析:任何一款产品,高活跃用户与低活跃用户在产品使用上必然不同,那么可能存在某个指标,一旦用户在这个指标上的消费超过某个临界值时,后面的用户就会变得非常有粘性,这就是Magic Number

eg. 对于滴滴APP,当前新用户留存较低,在分析的过程中,发现新用户在前三天一旦下单专车超过3次,留存就会大幅提升。这一分析导致某段时间滴滴有大量优惠活动。

image-20210305100818699

SQL必须会写

如何训练sq

常见现象:一旦表关联较多,内部逻辑稍微复杂,就怀疑自己的代码准确性

解决方案:

  • 公司内有一个写sql高手,那么在前期每次怀疑时,一定要把代码给对方 review,多请教,同时看他写代码的风格和逻辑,模仿。2个月之后再评估自己水平
  • 公司内大家SQL水平都差不多,这个时候只能靠自己,利用下班时间,将怀疑的代码,按照你认为应该的几种逻辑,全部运行遍,然后看哪个数据跟当前已知数据(一定要有一个已知数据作为参考,否则真不知道对与错)最为靠近,再去反推为何这样写看着更加合理

SQL是否熟练的标准:当别人让你快速跑一个数的时候,你的内心非常自信和高兴

SQL常见问题

【Max函数】对于某个实际上是字符型但是被误认为是数据值的字段取值,采用max函数,发现结果有错(13<9,-60<-90)

				解决方法:`select max(a+0) /*将字段a转换为数值型*/`

【日期处理】日期取年月份,时间戳取日期,日期格式转换等等需求,经常岀现各种冋题(高频易错)

​ 解决方法:先百度看用什么函数来转,在正式跑数据前,直接 select函数(a)小范围测试函数存在且 可用

下一种特殊的日期处理是北京时间和Unⅸ时间转换:

select from_unixtime(time) select from_unixtime(cast(substr(time,1,10) as int))(毫秒时)

【先聚合再计数】如果计算某个维度下的用户数,不要直接count(distinct imei),而应该

【一列变多行】AB测试中会对一个用户打多个标签,而这些标签都是存放在一个字段中,所以要看标签的维度,需要对该字段进行列变行的拆解

select *,b from t1 Lateral view explode(a) table as b

【取TOP】要看某分类下top10消费额子类(金额一致并列)

select * ,rank() over(partition by a ORDER BY b DESC) as rank from table t1

【避免数据倾斜】小表在左大表在右,使用map join ,同时对空值进行过滤

select /*mapjoin*/

image-20210305104654341

R、Python

常见问题:对于一个产品的重要指标如留存,影响的因素非常多,那么就需要找岀这些影响因素的重要性,从而知道围绕哪些因素运营更好提升留存SQL和exce明显都解决不了换种方式理解上面这段话:哪些指标最能够区分用户留存还是未留存,越是阴显区分,越重要转化为机器学习语言:对于个用户,他有个y(留存朱留存)还有很多各种影响因素),需要找出x与y的关系,并给出x的重要度排序,可以用随机森林,逻辑回归,决策树来实现

image-20210305104819306

image-20210305104829825

Python相比R的其他价值

爬虫:实际价值很大,比如爬取一些克品数据,用R就不太方便

​ 举例:资讯类AP的很多文章就是通过爬取下发给大家

文本挖掘:对评论数据的硏究,比如APP评论数据分析,从而知道如何去做评论运营闭环

​ 举例:京东网易APP的评论运营,其他APP的热点评论置前

UDF函数:HIVE自定义函数有时并不能满足需求,此时就需要自己定义函数来实现需求,这个时候就可以用 Python写UDF

​ 举例:计算基尼系数,HIVE中直接调用UDF能够很快输出

算法硏发同学:个性化推荐、底层运维、WEB开发非常强大的第三方库,在基础库的基础上再开发,避免重复造轮子

个人总结

国企的数据分析:打磨好統合技能
BAT的数据分析:方法论研究
中小企业数据分析:如何准备去转型
数据分析工具:常见的工具操作,关键还是要提升业务

数据分析多元思维模型

掌握好哪些能力,才能成为一名优秀的数据分析师?

中观能力 真正的专业度,能够很好的发现其他分析师分析中的问题;
需要长期总结和思考,需要掌握
微观能力 有效沟通能力,快速发散和收敛能力,能够从业务的交流中发现问题,找到方向<br /
宏观能力 洞见性的全局观,能够从社会事件、整个行业发展中找到业务的决策方向;
极难,平台,天赋缺一不可

中观能力

中观能力:专业度,包括技术理解,逻辑性,价值点三个点

中观能力是反映分析师基本功怎么样、套路熟不熟练,思考到不到位的一种标准

技术理解:对分析需要用到的技术是否理解到位,是停留在理论阶段还是实践阶段

逻辑性:对整体思考的逻辑性是否欠缺

价值点:做出来的东西价值在哪,如果你是老板,敢不敢立马规划落地

中观能力的提升相对比较容易,基本上就是从他人那里获得有效反馈,然后多实践

技术理解

数据处理中,有一个点是数据标准化,常见的都是[max-min方法][https://blog.csdn.net/weixin_42792088/article/details/103971069]、Z-scroe方法、指数对数方法

一定要理解这个只是理论上的方法,只有理解到数据标准化的本质目的是去除量纲量级的差异性,才能用好这个方法

eg.

对于toB的金融公司来说,往往都是除了头部几个很大的客户(前期资源),剩下的都是中小客户(后期拓展),以MAX-MN方法为例,如果直接用这种方法,会造成除了头部几个数据有数值外,其他基本都是0,数据非常稀疏,无论是可用性还是理解性都很困难。
两个解法:

  • 对客户先进行分群,再Max-Min来进行标准化
  • 90%中位数替代Max,消除头部影响

技术是为了让业务更加方便高效,而不是让人很困惑

逻辑性

eg.咨询类APP真实案例,数据分析师在研究最近一个月的数据,发现所用留存相关的因素中,留存和自媒体文章下发的占比存在高度相关性,于是就建议多下发自媒体文章
业务方觉得这个点很好,照做后,结果开始几天留存微涨,后续大跌

解释:相关性是一种基于向量的伴随关系,不代表直接的因果关系(但确实是因果关系的一种可能性)

具体到这个例子,留存的影响因素本身就非常多,不可能是某一两个指标就可以提升留存的

后来复盘发现,最近刚好是有一些重大热点留存提升,而这些重大热点文章是以自媒体文章为主,最终造成了自媒体文章下发占比能提升留存的假想。

分析师的逻辑性非常重要,每一环节推导必须严谨

价值点

技术难点 VS 业务意义

数据分析中,有些是描述性统计,这些需要快速解决;对于指导性、预测性分析,价值最大,最花时间,但一定要注意到价值点,即使只有一个

注意:有没有价值不是分析师决定,而是业务方;有些很好的点暂时无法落地,就先不要管他

微观能力

背景:优秀分析师的微观能力表现,始于经验,终于沉淀,注重点点滴滴,思维高度活跃,总是能找到线索

针对某个问题,总是能产生很多想法,找到切入点——想象力

业务方如果遇到问题就会优先找他,而他总能在最短的时间给业务一个较好的答复——解决问题的能力

对于数据有更好的敏感度,能够第一个发现数据问题并给出解法——敏感度

会议上,总是能提出自己独到观点,让别人觉得他很聪明——快速发现问题

总是能很好的知道业务在干啥,而他的视角有一直是高于业务,所有人认可——高纬视角

理解:微观能力包括有效沟通能力和快速发散收敛能力

作为一名分析师,你必须能够发现业务方发现不到的点,然后从数据上给出策略建议,具体怎么做到这点?

前提>> 先知道业务是怎么想的,怎么做的,然后从众发现问题或者切入点,解决问题,这样才能高于业务

有效沟通能力:与业务核心人员沟通,从谈话中快速捕捉到很多有用信息(说者无心听者有意)

快速发散收敛能力:基于沟通中的有效信息,快速提炼总结找到最好的分析切入点。
所谓的好奇心或者说想象力,其实都不是凭空产生的,回归到数据分析本质,只有和相关业务方(不一定是直接接触业务方)多沟通,从他们那里获得有效信息,再自身提炼加工(多学习、思考),才是可落地的天马行空,这个也就是优秀分析师厉害的地方(快速捕捉,提炼,找到问题,解决问题)

有效沟通能力的两个技巧

对于新人分析师,评估指标之一是这位同学的板凳是冷的还是热的,如果是热的,试用期很可能不让过

  1. 多问为何要做这件事往往能找到问题的本质,解法自然就多了

技巧1:黄金思维圈法则

在了解业务的情况下,反问业务方为何要做这件事,基本上,业务方都会有一个很具体的回答,往往都能在这里找到切入点

举例:顺丰科技最近在做一个类似锦鲤的活动,业务方要分析师给出活动带来的新增用户数这个时候分析师要先体验下这个活动,并且让业务方介绍下活动,同时问为何要这个数,当熟悉这些之后,发现这个活动本身没有特别的拉新点,也就是说活动本质是促进老用户活跃。所以建议业务对促活进行深入分析,一旦这样就已经高于业务视角了

做一些准备工作再沟通

与业务沟通中,如果没有提前准备一些业务知识和数据,整个过程就是业务在主导,你还怎么发现问题

举例:爱奇艺APP最近新上线了某功能,业务方拉各方参加会议,讨论下这个功能下一步的玩法。实际工作中,分析师都不一定知道会议主题、或者知道主题没有思考就去参加会议,可想而知整个讨论,除了了解一些基础信息外,还能干什么,也就是说,你只是知道这些信息,却无法获得有效信息

会议是一个很好的公共场合,也是分析师证明自己独特视角的地方,所以沟通前做好一定准备,不仅没有浪费时间,还能让别人觉得你很厉害

快速发散收敛能力

发散:对于某—个全新业务问题,跟业务沟通之后,分析师想法很多

收敛:在众多想法中,快速找到当前做哪个比较实际、合理,并且知道如何做的深入

举例:在制定公司级KPI的时候,业务分析师需要预估下一年年中的MAU和DAU该问题有多种解法:时间序列、行业环境、渠道分析都可以作为切入点

最终觉得渠道分析切入点会更加合理:
MAU=MAU新用户+MAU老用户

MAU新用户:明年渠道侧每个月能够带来的新增量多少(这个与眀年预算高度相关)
MAU老用户=MAU上月新次月老(基于渠道)+MAU上月老次月老(历史数据)+MAU回流(历史数据)

其实渠道这个切入点是之前从市场部那里无意捕获到的,后来提炼了下,觉得非常合理对于全新问题,没有固定答案,分析师需要做的就是快速给出个有依据的解法即可

微观能力培养

  • 尽可能多的和业务核心人员,特别是业务Leader沟通,看他们是如何思考业务的
  • 多看心理学,社交学,记忆力,科普类,经济学的书籍
  • 刻意联系,逐渐养成

宏观能力

解释:宏观能力即能够把当前业务与实际社会热点,行业风口联系起来,提前预判,获得更好的决策

image-20210305151410247

总结

中观能力:套路,在大公司能够很好学到

微观能力:微观体感,注重套路的真实落地过程,需要大量的积累,从不同业务方捕捉,提炼,沉淀

宏观能力:需要关注行业内动态,新闻联播,财经节目

一个公司的CEO其实就是顶级的数据分析师这个角色

电商数据分析——京东APP

如何去看京东APP

image-20210305151838548

作为一名数据分析师,应该能更深入,并且有层次的去看这个APP的数据

有三个问题需要大家思考:

  1. 引流(场):首页作为最大的带量位,分发效率如何评估
  2. 漏斗(货):北极星指标交易额知识一个数字,更重要的是理解这个数字的转换过程
  3. 用户(人):作为一款非常成熟的APP,老用户相对稳定,但新用户获取应该如何优化

其中引流是对整个APP整体的分析,漏斗是对核心路径的分析,用户是对产品的当前痛点进行分析

首页的分发效率整体数据:分发效率

分发效率评估

除了要关注日活、留存、渗透率这些常规指标外,更加重要的是找到一些能够反映产品问题的指标

CTR:点击UV/曝光UV ,反映用户点击欲望的指标,非常重要,只有点击才能产生交易,如果较小,首页问题较大

人均访问(点击)页面数:总访问页面数(PV)/总访问(UV),只有多访问页面,才可能 产生交易

而围绕这两个指标,按照维度拆解方法,可以发现更多的问题

比如CTR突然低了,那么是所有坑位的CTR均低还是个别引起

分发效率举例:人均访问页面数

  • 首页对搜索的分发能力最强
  • 618主要影响的是搜索这个坑位,因此在活动期间,要把资源和人力都往这块投入

发布版本时,也需要观察人均访问页面数这个重要指标

image-20210305155837259

分发效率总结

基于日活、留存、渗透、分发效率,基本上能够对APP的整体数据有个大概了解

作为一名优秀的分析师,除了要把自己负责的产品做好,更加重要的是不要设定边界,主动了解整体数据,在这个过程中,你需要找到负责的产品跟大盘的数据关系

  1. 该产品确实很好的带来了大盘的提升
  2. 该产品只是在强大盘的流量
  3. 该产品抢大盘流量,部分提升,那么提升度到底怎么样?

找到:业务功能与产品核心指标的关联性,量化,量化

漏斗分析

背景:了解完整体数据后,肯定要看具体细分数据,虽然整个APP坑位很多,但一切都是围绕交易额这个目标,而电商交易额的本质是转化率,所以任何一个坑位都绕不开漏斗模型。在所有的坑位中,搜索是最大的一个流量入口,因此以搜索为例

作为一名分析师,一定要多体验产品,找到新认知,这也是微观能力

了解每层漏斗的影响因素

请教同事;买电商书籍回来查看;多机型体验产品

引流渠道:桌面图标打开进入搜索还是其他

搜索框搜索、热点搜索、语音搜索

客服、评论、店铺设计、商品属性

尺寸、颜色、数量

物流、是否只是7天无理由退货、发票、运费

支付方式多样性密码错误、冲动消费、界面异常、其他打断

举个例子: 收银台uv >> 交易成功uv 78% ;问题是最后一步转换率太低,经排查用户还没有到支付密码那一步,所以支付侧的问题不会很大,所以要去研究这部分用户在收银台界面做了什么?

image-20210305162641711

漏斗总结:大部分电商数据分析都和漏斗有关,除了经验之外,更加重要的是对产品本身的经验,以及对竞品的学习,保持好奇心和敬畏心

也只有这样,才能慢慢关注到其他同学关注不到的点,而这些是培养良好微观体感的重要一步

新用户分析

背景作为一款非常成熟,在一线城市有很多忠实用户的APP,当前在用户体量上与手淘相差仍然较大,因此我们会看到京东与各方APP战略性合作,共同拉新。
拉新必然就要衡量拉新效果和拉新优化,拉新效果内部数据不太清楚,但是作为一名分析师,可以去看整个APP在拉新上可以优化的点。实际上拉新如果做的好,比老用户分析更容易出成绩

image-20210305163727252

新用户优惠券策略思考

逻辑性:作为一名新用户,对于任何APP都是陌生的,第一感觉就是先浏览,给用户发优惠券固然能提升用户的首日消费概率,用户的第一心智是先逛逛,结果你引导用户去注册,这在用户视角上有点不通,点击率必然不会很高

优惠券分发:首页曝光的是6元京东支付券和35元全品类券,而在188元大礼包里面实际上有8元运费券、40元电子文娱券、20元超市券。对于一名新用户,京东支付就很陌生。35元全品类券需要消费500元才能使用,要求有点高,是否可以做两点优化

1)在首页优惠券曝光上,把6元京东支付券替换为每个用户都知道并且在意的8元运费券

2)京东本身的主流用户群体是电子,所以用40元电子文娱券去替换35元全品类券,一方面是优惠更大,另一方面会让用户有一定惊喜感,当然更好的是在优惠券推荐的时候也加入个性化(肯定有数据)

文案第二幅图片除了优恵券占用了中间坑位外,上下位置均没有有效内容,可以增加更多坑位曝光,植入识别度高的文字:可用换成立减(可用是描述性词汇,立减是动作性词汇)

新用户分析建议:

新用户对比老用户,由于对APP不熟悉,因此在某几个漏斗环节,可能会有几个特征

1)用户行为较为离散化,数据上可能有几个主要漏斗

2)在某个环节转化率远比老用户低

3)新用户当天以逛为主,不下单,过一定时间段后再下单数据分析师能做的就是:把自己当作一个新用户去体验各种路径,并对异常漏斗进行维度拆解
(比如,是不是某个渠道的新用户转化率低引起整体低)

今天的课程总结及课后思考对于一款电商APP,分发效率是非常重要的一个产品指标
●漏斗模型套路很重要
●新用户的分析会更加有挑战性和有趣感整个电商分析体系非常庞大,我们的课程只能挂一漏万,最重要的是你能学到一些东西课后思考:同学们日常使用的电商APP有哪些优化空间和思考点

互联网金融TOC授信模型——以芝麻信用为例

背景介绍

互联网金融的本质是风控,数据分析师在这个行业基本上有两种角色:

1、风控分析师,除了一定的模型理解能力,还需要大量的行业和法律法规经验

2、数据建模师,要求对算法的理解较深,相对来说对行业经验要求不是很高

基本上数据挖掘分析师,数据建模师和产品经理都会去兼职这块

而在产品对象上分为toB和toC

toB:定量打分卡+定性行业经验

toC:个人信用分而无论是toB和toC,在决策上当前最依赖的都是央行征信报告

授信模型

芝麻信用分结构

身份(Who):小学毕业还是博士毕业—稳定性

履约能力(what):有没有房车——兜底性

信用历史(when):信用卡有无逾期——历史性

人脉关系(who):你的支付宝 朋友是不是土豪—稳定性验证+弱价值性

行为偏好(what):喜欢买奢侈品还是地摊货——真正价值

数据源:真实数据变量上千个,但实际上并不是越多越好

数据变量为何怎么多

模型落地

posted @ 2021-10-18 22:59  三两研几  阅读(87)  评论(0编辑  收藏  举报