打赏

实验1-EXCEL描述性统计分析

      描述性统计分析的常用指标有平均数、方差、中位数、众数、标准差等,
提供分析对象数据的集中程度和离散程度等信息。 我们可以通过相关统计函数如:
求和、平均值、最大(小)值、中位数、众数等来描述它的数据特点。 
         实验1:以某公司“用户消费数据”为例,利用用户消费金额这个变量来描述
用户消费行为特征,分析了解用户消费分布。 
        实验步骤: 【数据】-【分析】-【数据分析】-【描述统计】 
 ----------------------------------------------------------------
输入: 
      (1)输入区域 
      (2)分组方式:选择分组方式,如果需要指出【输入区域】
中的数据是按行还是按列排列。这里选择[逐列]。 
      (3)标志位于第一行,若数据源区域第一行含有标志位,则应勾选。
否则,EXCEL字段将以"列1、列2、列3、...."作为标志。

                           

                                      图2-1 【描述统计】参数设置

-----------------------------------------------------------
 输出:
      (1)输出区域 
      (2)汇总统计:包含平均值、标准误差、中位数、众数、标准差、
方差、峰度、偏度、区域、最小值、最大值、求和等。
      (3)平均置信度:是指总体参数值落在样本统计值某一区内的概率,常用的置信度为95%或90%。
      (4)第K大(小)值:表示输入数据组的第几位最大(小)值。 
               
                             图2-2 描述性统计结果示例 
    通过以上分析,我们可以得知用户的消费能力,例如这些用户平均消费金额为5098元,
用户的最高消费金额达到8886元,最低消费金额仅为1044元。

     (1)表现数据集中趋势的指标:平均数、中位数、众数。
     (2)描述数据离散程度的指标:方差和标准差,他们反映的是与平均值之间的离散程度。 
     (3)呈现数据分布形状指标:偏度系数与峰度系数。 峰度系数是描述对称分布曲线峰
顶尖峭程度的指标。有尖峭峰分布、平阔峰分布,是 相对于正态分布而言的。 
峰度系数>0,两侧极端数据较少,比正态分布更高更瘦,呈尖峭峰分布; 
峰度系数<0,两侧极端值较多,
比正态分布更矮更胖,呈平阔峰分布; 

 偏度系数是以正态分布为标准来描述数据对称性的指标。 
偏度系数=0,分布对称; 
偏度系数<0,频数分布的高峰向左偏移,
长尾向右延伸,则称为正偏态分布; 
偏度系数>0,频数分布的高峰向右偏移,长尾向左延伸,则称为负偏态分布;
 偏态系数>1或者<-1,高度偏态分布; 
偏态系数在0.5~1或-0.5~-1,中等偏态分布。 
偏度系数越接近0,偏斜程度越低。

 通过分析可知道,用户消费金额的峰度系数<0且偏度系数<0,所以用户消费数据呈现为平阔峰式正偏态分布。 
  




posted on 2019-01-18 02:51  XuCodeX  阅读(5125)  评论(0编辑  收藏  举报

导航