使用SPSS分析数据简单教程

1. SPSS

SPSS原名社会科学统计包Statistical Package for the Social Sciences),SPSS公司于2000年正式将英文全称更改为统计产品与服务解决方案Statistical Product and Service Solutions)。2009年7月28日,SPSS公司宣布该公司被IBM收购。

2. 解决什么问题?

一般我们使用SPSS来对数据进行处理和结果分析,常见的场景是显著性的计算,通过计算p值来得出2个因素之间是否存在显著性的关联。

2.1 显著性

有关显著性这里我们只简单记住2个概念,一个是显著性水平Significance Level

显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
常见的值如0.05或0.01。它代表了研究者愿意承担的犯第一类错误(错误地拒绝真实的原假设)的最大概率。
显著性水平帮助研究者控制假阳性结果的出现,即错误地认为处理效应是有意义的,而实际上可能是由于随机误差所致。‌

一个是P值probably value

P值是在原假设为真的情况下,观察到当前数据或更极端数据的概率。
P值衡量了观察到的效果在统计上显著的证据强度。
如果P值小于显著性水平(例如0.05),研究者通常会拒绝原假设,认为观察到的效果是统计显著的。
P值越小,拒绝原假设的理由越充分,表明观察到的效果不太可能是由随机误差产生的。‌

总结来说,显著性水平是研究者设定的一个标准,用于控制假阳性的出现概率;而P值是根据实际数据计算出来的,用于评估观察到的效果是否足够显著以拒绝原假设。
简而言之:p>α 维持原假设,p<α 推翻原假设。

3. 根据不同数据类型选择不同的处理方法

3.1 连续变量

首先对数据进行正态性检验(见3.1.1),如果数据符合正态分布,参照上表,根据组的数量,进行独立样本T检验(见3.1.2)或者单因素ANOVA(Analysis of Variance,方差分析,见3.1.3);如果数据不符合正态分布,参照上表,根据组的数量,进行曼-惠特尼 U 检验或者克鲁斯卡尔-沃利斯检验(见3.1.4)。

3.1.1 正态性检验




3.1.1.1 正态性检验结果解读


一般我们取显著性水平α=0.05,在输出的上表结果中,可以看到有左右2部分,分别采用了Kolmogorov-Smirnov (K-S) 检验Shapiro-Wilk (S-W) 检验,简单来讲,K-S适用于样本较大(n ≥ 50)的情况,S-W适用于小样本(n < 50)情况。但是一般来讲,样本数量<100使用S-W都是可行的。我们不能只关注p值,也要同时查看Q-Q图来辅助决策

如上图,如果点的分布与直线偏差不大,同时p值>0.05,那么我们便可以认为原假设成立,即:数据符合正态分布,否则则不是正态分布。

3.1.2 独立样本T检验




3.1.2.1 如何将一个变量重新编码成新的分组变量

例如上面提到的术后90天mRS评分是一个包含0~6共7个参数的分类变量,但是我们只需要将评分划分为2个组,那么就需要根据计算规则重新生成一个分组变量,操作如下


点击变化量


按范围添加
这样就生成了一个新的分组变量。

3.1.2.2 独立样本T检验结果解读


上图是结果输出,我们主要关注下表。
可以看到下表分为左右2部分,左边是Levene检验用于校验方法齐性,右边是t检验结果,上图中假定等方差的p = 0.054 > 0.05于显著性水平,不拒绝原假设,认为方差是相等的。所以看上面的那条数据。p = 0.126 > 0.05 ,不拒绝原假设,认为年龄和分组没关系。
如果方差不齐,那么就看下面的那个,通常称为Welch's t检验

3.1.3 单因素ANOVA检验



3.1.3.1 单因素ANOVA检验结果解读


p = 0.128 > 0.05 ,不拒绝原假设,认为年龄和评分没关系。

3.1.4 曼-惠特尼 U 检验




一般让SPSS自己选择方法就行了,也可以自己定制。

3.1.4.1 曼-惠特尼 U 检验结果解读


p = 0.654 > 0.05 ,不拒绝原假设,认为2者没关系。
我们选择一个>=3个分组的数据,就是克鲁斯卡尔-沃利斯检验了。

3.2 分类变量

卡方检验主要用于以下两种情况:
独立性检验 (Test of Independence):检验两个分类变量之间是否存在关联。例如,性别和喜欢的颜色之间是否有关联。
拟合优度检验 (Goodness of Fit Test):检验观察到的频率分布是否符合预期的频率分布。

3.2.1 卡方检验



3.2.1.1 卡方检验结果解读


主要关注第一行,皮尔逊卡方(Pearson Chi-Square)
p 值 = 1:这意味着检验的观察值与预期值完全吻合,几乎不可能出现这样的情况。通常来说,p 值为 1 表示没有任何证据反对零假设,换句话说,数据完全支持零假设(即变量之间没有关联)。
我们换个数据

如果p 值小于 0.05,说明在 95% 的置信水平下,我们可以拒绝零假设,表明变量之间存在显著关联。
但是上表中 p = 0.456 不能拒绝零假设,说明糖尿病和轻重症没有显著关联。

注意事项:
期望频数:检查每个单元格的期望频数,如果有单元格的期望频数低于 5,结果可能不可靠。SPSS 会在输出中显示期望频数。
数据量:确保数据量足够大,样本量过小会影响卡方检验的结果。
posted @ 2024-07-29 18:16  大唐冠军侯  阅读(131)  评论(0编辑  收藏  举报