实验1-EXCEL描述性统计分析
描述性统计分析的常用指标有平均数、方差、中位数、众数、标准差等,
提供分析对象数据的集中程度和离散程度等信息。
我们可以通过相关统计函数如:
求和、平均值、最大(小)值、中位数、众数等来描述它的数据特点。
实验1:以某公司“用户消费数据”为例,利用用户消费金额这个变量来描述
用户消费行为特征,分析了解用户消费分布。
实验步骤:
【数据】-【分析】-【数据分析】-【描述统计】
----------------------------------------------------------------
输入:
(1)输入区域
(2)分组方式:选择分组方式,如果需要指出【输入区域】
中的数据是按行还是按列排列。这里选择[逐列]。
(3)标志位于第一行,若数据源区域第一行含有标志位,则应勾选。
否则,EXCEL字段将以"列1、列2、列3、...."作为标志。
-----------------------------------------------------------
输出:
(1)输出区域
(2)汇总统计:包含平均值、标准误差、中位数、众数、标准差、
方差、峰度、偏度、区域、最小值、最大值、求和等。
(3)平均置信度:是指总体参数值落在样本统计值某一区内的概率,常用的置信度为95%或90%。
(4)第K大(小)值:表示输入数据组的第几位最大(小)值。
图2-2 描述性统计结果示例
通过以上分析,我们可以得知用户的消费能力,例如这些用户平均消费金额为5098元,
用户的最高消费金额达到8886元,最低消费金额仅为1044元。
(1)表现数据集中趋势的指标:平均数、中位数、众数。
(2)描述数据离散程度的指标:方差和标准差,他们反映的是与平均值之间的离散程度。
(3)呈现数据分布形状指标:偏度系数与峰度系数。
峰度系数是描述对称分布曲线峰
顶尖峭程度的指标。有尖峭峰分布、平阔峰分布,是 相对于正态分布而言的。
峰度系数>0,两侧极端数据较少,比正态分布更高更瘦,呈尖峭峰分布;
峰度系数<0,两侧极端值较多,
比正态分布更矮更胖,呈平阔峰分布;
偏度系数是以正态分布为标准来描述数据对称性的指标。
偏度系数=0,分布对称;
偏度系数<0,频数分布的高峰向左偏移,
长尾向右延伸,则称为正偏态分布;
偏度系数>0,频数分布的高峰向右偏移,长尾向左延伸,则称为负偏态分布;
偏态系数>1或者<-1,高度偏态分布;
偏态系数在0.5~1或-0.5~-1,中等偏态分布。
偏度系数越接近0,偏斜程度越低。
通过分析可知道,用户消费金额的峰度系数<0且偏度系数<0,所以用户消费数据呈现为平阔峰式正偏态分布。