检查单个变量的摘要统计量
今天将开始学习简单的摘要测量以及变量的测量级别如何影响应使用的统计量类型。使用demo.sav数据,资料来源于PASW_Statistics_18_Brief_Guide.
度量水平
不同的摘要测量适用于不同类型的数据,这具体取决于测量级别:
分类。包含有限数量的不同值或类别(例如,性别或婚姻状况)的数据。也称为定性数据。分类变量可以为字符串(字母数字)数据,也可以为使用数字代码来表示类别的数值变量(例如,0 = Unmarried,1 = Married)。存在两种基本类型的分类数据:
名义。不具有固有的类别顺序的分类数据。例如,工作类别 sales 不高于也不低于工作类别 marketing 或 research。
有序。具有有意义的类别顺序但各类别之间没有可测量距离的分类数据。例如,值high、medium 和 low 具有顺序,但无法计算这些值之间的“距离”。
标度。以区间或比例刻度度量的数据,其中数据值既表示值的顺序,也表示值之间的距离。例如,72,195 美元的薪金比 52,398 美元的薪金高,这两个值之间的距离是19,797 美元。也 称为定量或连续数据。
分类数据的摘要测量
对于分类数据,最典型的摘要测量是每个类别中的个案的数目或百分比。众数是具有最大个案数目的类别。对于有序数据,如果存在大量的类别,则中位数(半数个案位于其
上下的值)可能也是一个有用的摘要测量。
“频率”过程将生成频率表,其中显示变量的每个观察值的个案数目和百分比。
从菜单中选择:
分析
描述统计
频率...
选择 Owns PDA [ownpda] 和 Owns TV [owntv] 并将其移动到“变量”列表中。
单击确定以运行该过程。
频率表显示在浏览器窗口中。频率表揭示仅有 20.4% 的人拥有个人数字助理,但几乎每个人都拥有电视 (99.0%)。这些可能不是有趣的发现,尽管发现一小部分人没有电视可能十分有趣。
分类数据的图表
可以用条形图或饼图来图形化显示频率表中的信息。
再次打开“频率”对话框。(两个变量应仍处于选中状态。)可以使用工具栏上的“对话框调用”按钮快速返回到最近用过的过程。
单击图表。
选择条形图,然后单击继续。
单击主对话框中的确定以运行该过程。
除了频率表之外,当前还以条形图的形式显示了相同信息,以便于轻松看出大多数人没有个人数字助理,但几乎每个人都拥有电视这一事实。
刻度变量的摘要测量
有许多可用于刻度变量的摘要测量,其中包括:
集中趋势的测量。最常见的集中趋势测量是均值(算术平均数)和中位数(半数个案位于其上下的值)。
离散测量。测量数据中变异量或分散量的统计量,包括标准差、最小值和最大值。
再次打开“频率”对话框。
单击重置清除以前的所有设置。
选择 Household income in thousands [income] 并将其移到“变量”列表中。
单击统计量。
选择均值、中位数、标准差、最小值和最大值。
单击继续。
取消选中主对话框中的显示频率表格。(频率表通常对刻度变量没有帮助,因为不同值的数目可能与数据文件中的个案数几乎一样多)。
单击确定以运行该过程。
“频率统计量”表将显示在浏览器窗口中。
在此示例中,均值和中值之间具有较大的差异。均值几乎比中值大 25,000,这表明值为非正态分布。可以使用直方图来直观检查分布。
刻度变量的直方图
再次打开“频率”对话框。
单击图表。
选择直方图和带正态曲线。
单击继续,然后单击主对话框中的确定以运行该过程。
大多数个案聚类在刻度的较低端,其中多数在 100,000 以下。但是,也有少数个案在500,000 及以上(极少数个案甚至需要修改直方图才能可见)。这些少数个案的较高值对均值具有显著作用,但对中位数没有或仅有较小作用,因而在此示例中,中位数是对集中趋势的较好指示。