数据分析的方法论

作为产品方向的把控者,产品经理每做出一次决策的时候,都应该避免“我觉得”这类的主观拍脑袋的决策方式,而是以数据作为论据,因此数据分析的准确性与专业度,往往决定了一个产品发展。

下面简单来说下数据分析的方法论:

一、数据分析的思路

1. 基于用户路径

基于用户路径的思路是分析用户的操作行为,主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途。如App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画,App产品设计的优化与改版等。通过分析用户的路径行为,我们可以得出的典型路径,从而对典型路径进行针对性的优化。

另外对于用户路径分析是一个定义用户画像标签化的较好方法,例如对于一款社交类的电商app,我们可以通过用户的app使用操作数据来进行划分用户,对于一个话题主动分析制作帖子的创造主动型用户、热衷于点赞评论的互动型用户、默默看帖子不作反馈的潜水型用户。

2. 基于产品节点

基于产品节点的思路是通过某一个关键节点的转化率或数据占比的分析,比如说对于一个电商app,加入购物车到下单成功的数据转化率分析,优惠券的使用率分析,基于关键节点的数据分析可通过增加辅助功能进行优化分析,例如支付转化率的提高可以加入倒计时/有xx人同时在抢等等,促使尽快完成支付。

数据分析步骤

 

 

 

在做数据分析之前,我们一定要清楚此次数据分析针对的问题是什么,我们是为了弄清楚某个页面的到达率呢?还是想要知道用户行为路径的整体转化率?还是想要计算订单用户的转化率?

针对数据分析的问题,再对数据指标进行确定以及拆分,比如订单用户的转化率的定义为订单用户/全体用户,那么订单用户转化率的指标就拆分为订单用户及全体用户,如果订单用户的转化率定义为订单用户/访问用户,这个时候订单用户转化率的指标就拆分为订单用户及访问用户。

数据指标的分析都是为了让产品或业务更好的发展服务的,我们了解到某个数据指标的变化趋势之后,对产品的实际意义是什么。在做数据分析之前就应该要想明白,再基于这个目的,确定我们的分析范围。只有把范围确定清楚了,数据分析的结果才会更精准指导产品的改进和解决我们的实际问题。

1. 收集

数据的收集方式一般有以下几种:

问卷调查,一般用于前期的用户调研或用户使用情况的主观感受的获取,但精度较差,样本少;客户端数据,一般用于对用户浏览路径的记录,可通过用户行为及页面停留时长等指标分析app的易用型、页面到达率等指标;服务端数据及历史日志,服务器端所输出的数据更为准确深入,对于一些精确度要求较高的数据,建议使用服务端日志作为原始数据;业务数据库,主要用户业务数据的统计,如销售额、订单数量等业务指标。数据收集后,还需要对收集的数据进行预处理,对一些不符合标准的数据进行剔除。

2. 分析

数据的收集只是前期工作,如果对数据进行分析,采用什么方法进行分析,才是数据分析的核心技术体现。

下面列举几种数据分析的方法:

(1)AHP层次分析法

 

 

层次分析法,简称AHP,是指将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。

以用户的忠诚度分析为例,忠诚度是一个偏定性的指标,我们需要用定量的数值进行衡量。那么我们可以用AGP层次分析法来分析,选取用户使用频率、最近使用时间、平均使用时长及平均使用页面数四个可以量化的值进行衡量,产品经理对这四个值的权重进行定义,再对通过矩阵分析,最终可以得到每个用户的忠诚值,从而可以进行量化比较及分析。

但AHP层次分析法会受人的主观判断影响,不同的人的权重分配不同时,可能得到的结果会相差较大,该分析方法存在一定的不客观性。

(2)杜邦分析法

杜邦分析法的核心思路是把问题一层层分解,直到反映出最根本的问题为止。

以电商行业为例,GMV(网站成交金额)是考核业绩最直观的指标,当GMV同比或环比出现下滑时候,需要找到影响GMV的因素并逐一拆解。GMV下降如果是因下单用户减少所造成的,那么是访客数(流量)减少了,还是转化率下降了呢?如果是访客数减少了,那是因为自然流量减少了,还是因为营销流量不足?

用杜邦分析法会使我们清晰的找到影响结果的原因,特别对一些多个因素都会影响到的数据,是非常有效的分析方法。

(3)漏斗分析

漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。现所有互联网产品、数据分析都离不开漏斗,无论是注册转化漏斗,还是电商下单的漏斗,需要关注的有两点。第一是关注哪一步流失最多,第二是关注流失的人都有哪些行为。

以电商的购买行为为例,从用户浏览商品到完成交易可以分为以下5个步骤:

关注流程的每一个步骤,可以有效定位高损耗节点,例如假设5个步骤的UV人数如下:

通过漏斗分析,可以得到下图:

 

 我们可以看到,购物车之前的转化率都较高,但在下订单的流程中,转化率急剧降低至35.4%,这里可能就是需要改进的地方。确定出问题的关键节点后,我们可以对该节点的用户行为进行详细分析,例如用户的停留时间、确认订单页面的具体事件,做进一步的分析。

3. 改进&跟踪

基于数据找到问题,并找到最优的解决方案,是数据分析的目的,再通过后期的效果跟进及前后数据对比,验证方案的效果。

三、结语

数据分析是产品经理工作的重要组成部分,依据数据变化来调整产品是有效的工作方式。如何进行数据分析,分析哪些数据,根据数据制定改进方案是每一个产品经理都要熟练掌控的技能,因为几乎所有的问题,我们都能在数据中找到答案。

本文由 @why 原创发布于人人都是产品经理。

方法论:就是关于人们认识世界、改造世界的方法的理论。方法论在各行各业都以各式各样的形式存在,它如同指南针一样,科学的指引着我们到达目的地。在数据分析过程中,也存在这样一个对整体工作起指导作用的思路模型,即数据分析方法论。接下来我们从以下两个方面来了解数据分析方法论 。

  1. 什么是数据分析方法论?
  2. 有哪些数据分析方法论?

那么什么是数据分析方法论?要引入数据分析方法论这个概念,首先我们弄清楚数据分析方法论和数据分析方法的区别:

数据分析方法论:它是从宏观角度指导我们如何进行数据分析,它更像一个规划图,告诉我们项目的整体框架、从哪几个方面进行数据分析、各方面又包含什么内容和指标,先分析什么后分析什么,它会给我们更加科学合理的分析思路,不断指导我们后期数据分析工作的开展。

数据分析方法:它是从微观角度指导我们如何进行数据分析,它数据分析中具体采用什么样数据分析方法,比如对比分析、相关分析等常用的分析方法,也可以是机器学习、深度学习中算法。

数据分析步骤一般分为:

数据分析的流程

在日常学习或者工作中,初学者接触的所谓的"数据分析"大概率的是数据分析方法,比如如何使用分析工具(python、R、excel、SQL、hadoop、spark 等分析工具)对数据进行收集处理,然后利用分析方法(统计学、概率论、机器学习、深度学习 等方法)对数据进行分析建模,最后利用可视化工具 (PPT、Tableau、PowerBI)对分析结果进行可视化展示以及报告的撰写。在数据分析的过程中,我们常常会遇到以下各种问题:

  • 不知道从哪几个方面开展分析?
  • 分析的指标和内容是否完整?
  • 最终的分析结果是否有效?

像我这样的初学者经常遇到上述情况,出现这种情况无非这两个原因:一、分析者对业务了解不够;二、没有科学合理的方法指导。这两者都非常重要,只有当实际业务在科学的方法论的指导下,分析的结果才更加科学更加具有说服力。

在数据分析流程中,明确分析目的和思路是数据分析的第一步,也是最重要的一步。一般来说,数据分析的目的越明确,分析的结果就越有价值。明确目的后,需要梳理思路,搭建分析框架,把分析的目的拆解成若干个不同的分析要点,然后针对每个分析要点确定分析方法和具体的分析指标,最终我们确保我们的分析框架体系化,使分析结果更加具有说服力。而数据分析方法论可以保证分析框架体系化,这也是我们要学习数据分析方法论的原因。

那么有哪些数据分析方法论?数据分析方法论主要分为营销方面理论模型和管理方面理论模型:

数据分析方法论

 

其中营销方面的理论模型有:4P、用户使用行为、STP理论、SWOT等。管理方面的理论模型有:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能尽量确保数据分析维度的完整性,结果的有效性及正确性。

接下来的文章我会重点介绍这些有趣且有效的方法论。

一、4P营销理论

4P营销理论,对应英文为The Marketing Theory of 4Ps),该理论产生于20世纪60年代的美国,随着营销组合理论的提出而出现的。

1967年,菲利普·科特勒在其畅销书《营销管理:分析、规划与控制》第一版进一步确认了以4Ps为核心的营销组合方法,即:

产品(Product):注重开发的功能,要求产品有独特的卖点,把产品的功能诉求放在第一位。

价格 (Price):根据不同的市场定位,制定不同的价格策略,产品的定价依据是企业的品牌战略,注重品牌的含金量。

渠道 (Place):企业并不直接面对消费者,而是注重经销商的培育和销售网络的建立,企业与消费者的联系是通过分销商来进行的。

宣传(Promotion):比如打折、买一送一等。

例如,以福特汽车为例来说明经典的4P营销理论,如下图所示。

二、用户行为理论

用户使用行为是指用户为获取、使用物品或服务所采取的各种行动。用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户,这个过程如下图所示。

例如,某网站的用户行为分析如下图所示。

三、STP理论(用于目标市场定位分析)

市场细分(Segmentation)、选择适当的市场目标(Targeting)和市场定位(Positioning),是战略营销的核心内容。STP理论是指企业在一定的市场细分的基础上,确定自己的目标市场,最后把产品或服务定位在目标市场中的确定位置上。

这个我们平时公司的数据分析不太接触得到,有兴趣的可以自行了解。

四、SWOT分析法(用于企业战略分析)

S (strengths)是优势、W (weaknesses)是劣势,O (opportunities)是机会、T (threats)是威胁。按照企业竞争战略的完整概念,战略应是一个企业“能够做的”(即组织的强项和弱项)和“可能做的”(即环境的机会和威胁)之间的有机组合。

新产品或者服务上线的时候可以结合SWOT分析法进行战略性分析和规划。

如表1的小额信贷公司的SWOT分析:

五、PEST分析法

PEST分别是四个单词的首字母,其中:

P:Political,政治环境。E:Economic,经济环境。S:Social,社会环境。T:Technological,技术环境。可以用一个四象限的图来概括PEST分析法。

PEST分析法主要用于对宏观环境的分析,虽然不同行业和企业有其自身特点和经营要素,分析的具体内容会有差异,但一般都应对PEST这四个方面进行分析。

例如,用PEST分析生鲜行业,如下图所示。

六、5W2H分析法

5W2H分析法是以5个W开头的英文单词和两个H开头的单词进行提问,从回答问题中发现解决问题的线索。

5W:

Why:为何?What:何事?Who:何人?When:何时?Where:何地?2H:

How:如何做?How much:什么价?这种分析方法有利于抓住重点,理清逻辑,易于理解和使用。

例如,用5W2H分析法分析一款产品。

七、逻辑树

逻辑树又称问题树、演绎树或分解树等。它是把一个已知问题当成“主干”,然后开始考虑这个问题和哪些相关问题有关,也就是“分支”。

逻辑树能保证解决问题的过程的完整性,它能将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。

例如,用逻辑树分析公司的利润增长缓慢这个问题,如下图所示。

八、SMART 

作者:张溪梦 Simon
链接:https://www.zhihu.com/question/25949022/answer/168050950
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

九、画像分群

画像分群是聚合符合某中特定行为的用户,进行特定的优化和分析。

比如在考虑注册转化率的时候,需要区分移动端和 Web 端,以及美国用户和中国用户等不同场景。这样可以在渠道策略和运营策略上,有针对性地进行优化。

十、趋势

建立趋势图表可以迅速了解市场, 用户或产品特征的基本表现,便于进行迅速迭代;还可以把指标根据不同维度进行切分,定位优化点,有助于决策的实时性;

作者:帆软
链接:https://www.zhihu.com/question/25949022/answer/1760327262
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

用户价值模型

十一、RFM模型

RFM分析是客户关系分析中一种简单实用客户分析方法,他将最近一次消费、消费频率、消费金额这三个要素构成了数据分析最好的指标,衡量客户价值和客户创利能力。

RFM分析也就是通过这个三个指标对客户进行观察和分类,针对不同的特征的客户进行相应的营销策略。

R——最后交易距离当前天数(Recency)
F——累计交易次数(Frequency)
M——累计交易金额(Monetary)

在这三个制约条件下,我们把M值大,也就是贡献金额最大的客户作为“重要客户”,其余则为“一般客户"和”流失客户“,基于此,我们产生了8种不同的客户类型:

  • 重要价值客户:复购率高、购买频次高、花费金额大的客户,是价值最大的用户。
  • 重要保持客户:买的多、买的贵但是不常买的客户,我们要重点保持;
  • 重要发展客户:经常买、花费大但是购买频次不多的客户,我们要发展其多购买;
  • 重要挽留客户:愿意花钱但是不常买、购买频次不多的客户,我们要重点挽留;
  • 一般价值客户:复购率高、购买频次高,但是花费金额小的客户,属于一般价值;
  • 一般保持客户:买的多但是不常买、花钱不多,属于一般保持客户;
  • 一般发展客户:经常买,但是买不多、花钱也不多,属于一般发展客户;
  • 一般挽留客户:不愿花钱、不常买、购买频次不高,最没有价值的客户;

下面是我用FineBI做的RFM模型可视化仪表板,可以通过RFM模型对客户的终生价值做一个合理的预估,基于一个理想的客户特征来衡量现实中客户价值的高低,通过此类分析,定位最有可能成为品牌忠诚客户的群体,让我们把主要精力放在最有价值的用户身上。

十二、波士顿模型

波士顿模型最初是一个时间管理模型,按照紧急、不紧急、重要、不重要排列组合分成四个象限,以此便于对时间进行有效的管理。

运用在客户分析中,也就是利用销售额和利润这两个重要指标分为四个象限,对我们的客户进行分组。我们将这两个维度作为横纵坐标轴分为四个象限,将产品或者服务分为下面四种类型:

  • 明星类:增长率高、占有率高,代表着十分成功的产品,是主打的明星产品;
  • 金牛类:增长率低、占有率高,已经占据了市场但是没有发展空间的产品,属于现金牛产品;
  • 问题类:增长率高、占有率低,说明用户需求高,但是本身产品有问题,需要改进优化;
  • 瘦狗类:增长率低、占有率低,市场不认可的失败产品,需要尽快去除;

我们如此分类的目的正是要根据波士顿矩阵,将一些没有发展前景和市场潜力的产品尽快淘汰掉,保证明星产品和现金牛产品的份额,从而搭配好产品或者业务的整个市场布局。

FineBI制作的波士顿模型实际使用:

如图所示,每个销售大区与每个销售年份下的客户分布,通过筛选数据,我们得到我们想要的客户信息。而波士顿矩阵则是一个非常有力的工具,可以帮助我们将杂乱无序的东西组块整理,在使用矩阵的的时候,尽量选取纵向和横向毫无关联要素来分析,这样才能发挥矩阵分块整理的作用。

十三、CLV用户生命模型

我们知道并不是所有的顾客都具备相同的价值,如果企业能够专注于那些可以带来最大未来利益的客户,就可以实现更好的运营。所以企业必须识别出这些客户,CLV是对客户未来利润的有效预测,它还有另外一个名字,叫做LTV (life time value)。

这里需要特别说明的是,CLV考虑了完整的客户生命周期,包含客户获取和客户流失,也就是它计算的不只是眼前顾客已经产生的价值,还预测了未来价值。

CLV的计算公式有非常多,有的会非常复杂,主要在流失率这个环节和影响因素就相当多,也有会加上投入成本,价值变化率和利率变化等等。

比较实用简单的是这种:

注意此公式对群体有效,对个体精准度较低,因为个体流失率影响因素太多,而群体流失率却是可以统计的。

那对于CLV的应用,可以从以下两个模型来看,将企业的最优客户与不值得投入的客户区分出来:

十四、帕累托模型(二八法则)

帕累托原则,又称二八原则,是关于效率与分配的判断方法。帕累托法则是指在任何大系统中,约80%的结果是由该系统中约20%的变量产生的。应用在企业中,就是80%的利润来自于20%的项目或重要客户。

模型的解释:当一个企业80%利润来自于20%的客户总数时,这个企业客户群体是健康且趋于稳固的。 当一个企业80%利润来自大于20%的客户总数时,企业需要增加大客户的数量。当一个企业80%利润来自小于20%的客户群时,企业的基础客户群需要拓展与增加。

模型的实际使用:如下图我用FineBI制作的某商场品牌商的销售额。

一共10家客户,5家客户(50%)提供了80%的销售额,这就说明需要增加大品牌客户数量。

带来大量销售额的客户必须认真对待和维护,如果客户数量大,尤其需要列出重点客户重点跟进,把有限的精力放在创造利润大的客户上。

十五、AARRR模型

AARRR模型是所有运营人员都要了解的一个数据分析模型,从整个用户生命周期入手,包括获取(Acquisition)、激活(Activition)、留存(Retention)、变现(Revenue)和传播(Refer)。

每个环节分别对应生命周期的5个重要过程,即从获取用户,到提升活跃度,提升留存率,并获取收入,直至最后形成病毒式传播。

例如,基于AARRR模型,分析猪八戒网的用户生命周期。

十六、杜邦分析法

杜邦分析法目前主要用于财务领域,通过财务比率的关系来分析财务状况,其核心要点是将一个大的问题拆分为更小粒度的指标,以此了解问题出在了哪儿,从而对症下药。

以电商行业为例,GMV(网站成交金额)是考核业绩最直观的指标,当GMV同比或环比出现下滑时候,需要找到影响GMV的因素并逐一拆解。

GMV下降如果是因下单用户减少所造成的,那么是访客数(流量)减少了,还是转化率下降了呢?如果是访客数减少了,那是因为自然流量减少了,还是因为营销流量不足?

如果是自然流量下降的话,可能需要在用户运营和产品运营端发力,如果是营销流量不足,那么可以通过营销活动或者站外引流的形式增加曝光量。

同样,如果是转化率的问题,那么需要对用户进行细分,针对不同阶段的用户采取不同的运营策略,关于用户的部分,这里不做赘述,有兴趣的朋友可以关注后面的文章。

最后,如果是因为客单价不高,那么需要进行定价及促销的方案优化,比如识别具有GMV提升潜力的商品进行定价优化,评估当前促销的ROI,针对选品、力度和促销形式进行优化。同时通过关联商品的推荐或商品套装促销的形式,激发用户购买多件商品,也可以有效提高客单价。

十七、BCG矩阵

BCG矩阵大家都非常熟悉了,以市场占有率和增长率为轴,将坐标系划分为四个象限,用于判断各项业务所处的位置。

这里想讲的并非传统的BCG矩阵,而是BCG矩阵的变阵,或者叫类BCG矩阵。根据不同的业务场景和业务需求,我们可以将任意两个指标作为坐标轴,从而把各类业务或者用户划分为不同的类型。

比如可以以品牌GMV增长率和占有率构建坐标系,来分析各品牌的状况,从而帮助业务方了解到哪些品牌是未来的明星品牌,可以重点发力,哪些品牌处于弱势且增长匮乏,需要优化品牌内的产品布局。

除此之外,我们还可以根据以下场景构建类BCG矩阵:

1)分析商品引流能力和转化率:流量份额-转化率

2)分析商品对毛利/GMV的贡献:毛利率-销售额

3)基于RFM分析用户的价值:访问频率-消费金额

按照上述方法,大家可以根据需求大开脑洞,按照一定标准对研究对象进行分类分析。

十八、TGI指数

在分析用户时,通常的做法是将目标用户进行分类,然后对比各类用户与总体之间的差异性,TGI指数提供了一个很好的方法,来反映各类用户群体在特定研究范围(如地理区域、人口统计、媒体偏好等)内的强势或弱势。

TGI指数=用户分类中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例*100。

比如在分析用户的年龄段时,可以通过TGI指数对比各用户分类与总体在各年龄段的差异,设用户分类1中16-25岁的用户占比为4%,而总体中16-25岁的用户占比为8.3%,那么用户分类1在16-25岁用户中的TGI指数为4%/8.3%*100=48。依照这一方法,我们可以对各类用户在各年龄段的TGI指数进行对比。

 

 

如上图所示,各类目标用户在16-25岁这个年龄段的占比都比总体小(TGI指数<100),其中分类1的用户年龄偏大,因为该类用户在36岁以上各个年龄段的TGI指数都明显高于100,且同时高于其他三类用户。

当前在互联网领域,除了用户实名数据以外,其他用户的画像维度一般都通过建立模型进行判断,因此无法完全保证准确性,但不同于小样本调研,大数据分析是能容忍一定数据误差的,不过,这一切都要建立在对比的基础上。

所以,在分析用户画像时,需要根据场景进行用户分类,并对比各类用户与总体间的差异,这样才能保证分析结果的可信性和适用性,而TGI指数就是很好的对比指标。

十九、 LRFMC模型

RFM模型是客户关系管理中最常用的模型,但这一模型还不够完善,比如对于M(Money),即消费金额相等的两个用户而言,一个是注册两年的老用户,一个是刚注册的新用户,对于企业来说,这两个用户的类型和价值就完全不同,因此我们需要更全面的模型。

LRFMC模型提供了一个更完整的视角,能更全面地了解一个用户的特征,LRFMC各个维度的释义如下:

L(lifetime):代表从用户第一次消费算起, 至今的时间,代表了与用户建立关系的时间长度,也反映了用户可能的活跃总时间。

R(Recency) :代表用户最近一次消费至今的时间长度,反映了用户当前的活跃状态。

F(Frequency) :代表用户在一定时间内的消费频率,反映了用户的忠诚度。

M(Monetary) :代表用户在一定时间内的消费金额,反映了用户的购买能力。

C(CostRatio):代表用户在一定时间内消费的折扣系数,反映了用户对促销的偏好性。

以去哪儿的业务为例,通过LRFMC模型可以综合分析用户的习惯偏好和当前状态,从而指导精准营销方案的实施。

L(lifetime):用户来多久了?

R(Recency) :用户最近是否有消费,如果来了很长时间都未消费,是否需要进行唤醒?

F(Frequency) :用户出行的频率如何,如果是固定周期出行,是否应该进行复购提醒?

M(Monetary) :用户的消费金额是多少,是单价高(购买头等舱),还是频次高?

C(CostRatio):用户对折扣的偏好如何,是为用户增加权益还是降价促销?

二十、产品运营类

产品运营是一个长期的过程,需要定期对产品的使用数据进行监控,以便发现问题,从而确定运营的方向,同时也可以用于评估运营的效果。

产品运营的常用指标如下:

1)使用广度:总用户数,月活

2)使用深度:每人每天平均浏览次数,平均访问时长

3)使用粘性:人均使用天数

4)综合指标:月访问时长=月活*人均使用天数*每人每天平均浏览次数*平均访问时长

产品所处阶段不同,运营的侧重点也会有所不同。在产品初期,核心的工作是拉新,应该更加关注产品的使用广度,而产品的中后期,应该更加注重使用深度和使用粘性的提升。

对于不同的产品也需根据产品的性质来确定核心指标,比如,对于社交类产品,使用广度和使用粘性至关重要,而对于一些中台分析类产品,提升使用深度和使用粘性更有意义。

 

 

 

一、统计分析方法论:

1.描述统计(Descriptive statistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

(1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。

(2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下:

平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。

中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。

众数:是指在数据中发生频率最高的数据值。

如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。

(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。

(4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,数据的正态性离群值检验,已知标准差Nair检验,未知标准差时,有Grubbs检验,Dixon检验,偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。

(5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。

2.假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。

3.相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析。相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

4.方差分析(Analysis of Variance,简称ANOVA):又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

 

方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

5.回归分析:回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

6.聚类分析:聚类主要解决的是在“物以类聚、人以群分”,比如以收入分群,高富帅VS矮丑穷;比如按职场分群,职场精英VS职场小白等等。

 

聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

常用的算法k-means、分层、FCM等。

 

7.判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。

注意事项:

a. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

b. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

c. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。

相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。

应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

8.主成分与因子分析:主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,将变量表示成为各因子的线性组合,从而把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。

9.时间序列分析:经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。

10.决策树(Decision Tree):是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy
= 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

 

 

 

posted @ 2021-06-24 15:09  MRO物料采购服务  阅读(787)  评论(0编辑  收藏  举报