lxinghua

博客园 首页 新随笔 联系 订阅 管理

一、基本统计分析

SPSS基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。
本篇主要介绍如何在SPSS中进行均值、中位数、众数、方差、百分位、频数、峰度、偏度、探索分析、交叉联列表分析、多选项分析、基本统计报表制作等的操作。

1. 均值(Mean)和均值标准误差(S.E.mean)

定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。计算公式如下。
总体平均数:若一组数据X 1 ,X 2 , … ,X N ,代表一个大小为N的有限总体,则其总体平均数为

样本平均数:若一组数据x 1 ,x 2 , … ,x n ,代表一个大小为n的有限样本,则其样本平均数为


样本数据来自总体。样本的统计描述量可以反映总体数据的特征,但由于抽样等原因,使得样本数据不一定能够完全准确地反映总体,它可能与总体的真实值之间存在一定的差异。进行不同次抽样,会得到若干个不同的样本均值,它们与总体均值存在着不同的差异。
均值标准误差(Standard Error of Mean,S.E. mean)就是描述这些样本均值与总体均值之间平均差异程度的统计量。
研究问题
求某班级学生在一次数学测验中的平均成绩,数据如下所示。


实现步骤:选择“分析”->描述统计->频率

 

 2. 中位数 ( Median )

定义:把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。
计算公式:一个大小为的数列,要求其中位数,首先应把该数列按大小顺序排列好,如果为奇数,那么该数列的中位数就是位置 (N+1)/2上的数;如果N为偶数,中位数则是该数列中第 N/2 与第  N/2 +1位置上两个数值的平均数。

研究问题
求某班级学生身高的中位数,数据如下表所示。

3. 众数(Mode)

定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。
计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。

研究问题
求某医院当天出生新生儿的体重的众数,数据如下表所示。

4. 全距(Range)

定义:全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。
计算公式:最大值-最小值。

研究问题
求某班级学生数学成绩的全距,数据如下表所示。

5. 方差( Variance )和标准差 ( Standard Deviation )

定义:方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个 “ 中心 ” 的离散趋势越大。


研究问题 求某班级学生数学成绩的方差和标准差,数据如下表所示。

    

6. 四分位数 ( Quartiles )、 十分位数( Deciles )和 百分位数( Percentiles )

定义:四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D 1 ,D 2 , … ,D 9 ,表示10%的数据落在D 1 下,20%的数据落在D 2 下, … ,90%落在D 9 下。百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P 1 ,P 2 , … ,P 99 ,表示1%的数据落在P 1 下,2%的数据落在P 2 下, … ,99%落在P 99 下。 
研究问题1  求某班级学生数学成绩的四分位数,数据如下表 所示。

研究问题2 测量 54 个某种机械零件的重量(克),求零件重量的 D6 ,数据如 表所 示 。
研究问题3 测量出 54 个某种机械零件的重量(克),求零件重量的 P37 ,数据如表所示。

7. 频数(Frequency)

定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。
变量的频数分析正是实现上述分析的最好手段,它可以使人们非常清楚地了解变量取值的分布情况。
研究问题   10 个学生在某次数学、语文、化学考试中成绩如表所示,试求学生在3 3 门课程上的频数分布。

8. 峰度(Kurtosis)

定义:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式为

研究问题    某班级 40 个学生的年龄分布 如表所示,试求学生年龄峰度。

9. 偏度(Skewness)

定义:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。具体的计算公式为

这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。

研究问题    某班级 41 个学生的身高分布如下表

 10. 标准化Z分数及其线性转换

研究问题1 求某班级学生数学成绩的Z Z 分数,数据如下表 所示。

研究问题2 从下图中可以看到学生数学成绩的Z Z 分数有正有负,而且小数点位数较多,因此可以把它线性转换为T分数。

二、探索分析

 

三、基本统计分析的报表制作

四、T检验方法介绍

posted on 2023-05-25 00:54  興華  阅读(29)  评论(0编辑  收藏  举报