SPSS主成分与因子分析
实验目的
学会使用SPSS的简单操作,掌握主成分与因子分析。
实验要求
使用SPSS。
实验内容
实验步骤
(1)主成分分析,分析示例——对30个省市自治区经济基本情况的八项指标进行分析,详情见factorl.sav文件。SPSS操作,点击【分析】→【降维】→【因子】,在打开的【因子分析】对话框中,把x1~x8都选入【变量】中,点击【描述】,勾选【系数】,点击【继续】,单击【确定】。
SPSS在调用因子分析的过程中,首先会对原始变量进行标准化,因此以后的输出结果中通常情况下都是指标准化后的变量。在结果输出中会涉及一些因子分析的内容,因此这里只给出与主成分分析有关的部分如下:
相关性矩阵 |
|||||||||
|
GDP |
居民消费水平 |
固定资产投资 |
职工平均工资 |
货物周转量 |
居民消费价格指数 |
商品价格指数 |
工业总产值 |
|
相关性 |
GDP |
1.000 |
.267 |
.951 |
.187 |
.617 |
-.273 |
-.264 |
.874 |
居民消费水平 |
.267 |
1.000 |
.426 |
.716 |
-.151 |
-.235 |
-.593 |
.363 |
|
固定资产投资 |
.951 |
.426 |
1.000 |
.396 |
.431 |
-.280 |
-.359 |
.792 |
|
职工平均工资 |
.187 |
.716 |
.396 |
1.000 |
-.357 |
-.145 |
-.543 |
.099 |
|
货物周转量 |
.617 |
-.151 |
.431 |
-.357 |
1.000 |
-.253 |
.022 |
.659 |
|
居民消费价格指数 |
-.273 |
-.235 |
-.280 |
-.145 |
-.253 |
1.000 |
.763 |
-.125 |
|
商品价格指数 |
-.264 |
-.593 |
-.359 |
-.543 |
.022 |
.763 |
1.000 |
-.192 |
|
工业总产值 |
.874 |
.363 |
.792 |
.099 |
.659 |
-.125 |
-.192 |
1.000 |
上表为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性比较强,的确存在信息上的重叠。
总方差解释 |
||||||
成分 |
初始特征值 |
提取载荷平方和 |
||||
总计 |
方差百分比 |
累积 % |
总计 |
方差百分比 |
累积 % |
|
1 |
3.754 |
46.924 |
46.924 |
3.754 |
46.924 |
46.924 |
2 |
2.203 |
27.532 |
74.456 |
2.203 |
27.532 |
74.456 |
3 |
1.208 |
15.096 |
89.551 |
1.208 |
15.096 |
89.551 |
4 |
.403 |
5.042 |
94.593 |
|
|
|
5 |
.214 |
2.673 |
97.266 |
|
|
|
6 |
.138 |
1.722 |
98.988 |
|
|
|
7 |
.066 |
.829 |
99.817 |
|
|
|
8 |
.015 |
.183 |
100.000 |
|
|
|
提取方法:主成分分析法。 |
上表给出的是各成分的方差贡献率,由此可知,只有前3个特征根大于1,因此SPSS只提取了前3个主成分。前3个主成分的方差贡献率达到89.515%,因此选前3个主成分已足够描述经济发展的水平。
成分矩阵a |
|||
|
成分 |
||
1 |
2 |
3 |
|
GDP |
.884 |
.385 |
.120 |
居民消费水平 |
.606 |
-.596 |
.277 |
固定资产投资 |
.911 |
.163 |
.213 |
职工平均工资 |
.465 |
-.725 |
.362 |
货物周转量 |
.486 |
.737 |
-.279 |
居民消费价格指数 |
-.510 |
.257 |
.794 |
商品价格指数 |
-.621 |
.596 |
.433 |
工业总产值 |
.822 |
.429 |
.210 |
提取方法:主成分分析法。 |
|||
a. 提取了 3 个成分。 |
上表为主成分系数矩阵,可以说明各主成分在各变量上的载荷,从而得出各主成分的表达式,注意表达式中各变量已经不是原始变量,而是标准化变量。
由于各自变量已经标准化了,因此以上3个主成分的均数均为0。在第1主成分的表达式中,X1,X2,X3,X8的系数较大,可以看成是反映GDP、固定资产投资、居民消费水平和工业总产值的综合指标。在第2主成分中,X4和X5的系数较大,可以看成反映的是职工平均工资和货物周转量的综合指标。在第3主成分中,X6的系数较大,可以看成反映居民消费价格指数方面的综合指标。
代码:
1 FACTOR 2 /VARIABLES x1 x2 x3 x4 x5 x6 x7 x8 3 /MISSING LISTWISE 4 /ANALYSIS x1 x2 x3 x4 x5 x6 x7 x8 5 /PRINT INITIAL SIG EXTRACTION ROTATION 6 /CRITERIA MINEIGEN(1) ITERATE(25) 7 /EXTRACTION PC 8 /CRITERIA ITERATE(25) 9 /ROTATION VARIMAX 10 /METHOD=CORRELATION.
(2)因子分析,在前面已经对全国30个省市自治区的经济发展状况进行了主成分分析,最终结果并不是十分明确,现在采用因子分析法进行分析。SPSS操作如下,【分析】→【降维】→【因子】,在打开的【因子分析】的对话框中,把x1~x8选入变量。打开【描述】子对话框,勾选【KMO和巴特利特球形度检验】→【继续】。打开【提取】,勾选【碎石图】→【继续】。打开【得分】,勾选【显示因子得分矩阵】→【继续】。单击【确定】。
KOM和球形Bartlett检验用于因子分析到适用性检验,KOM检验变量间的偏相关是否较小,Bartlett球形检验是判断相关阵是否是单位阵。
KMO 和巴特利特检验 |
||
KMO 取样适切性量数。 |
.620 |
|
巴特利特球形度检验 |
近似卡方 |
231.285 |
自由度 |
28 |
|
显著性 |
.000 |
由Bartlett检验可以看出,应拒绝各变量独立的假设,即变量间具有较强的相关性。但是KOM统计量为0.620小于0.7,说明各变量间信息的重叠程度不是很高,有可能做出的因子分析模型不是很完善,但还是值得尝试。
公因子方差 |
||
|
初始 |
提取 |
GDP |
1.000 |
.945 |
居民消费水平 |
1.000 |
.799 |
固定资产投资 |
1.000 |
.902 |
职工平均工资 |
1.000 |
.873 |
货物周转量 |
1.000 |
.857 |
居民消费价格指数 |
1.000 |
.957 |
商品价格指数 |
1.000 |
.928 |
工业总产值 |
1.000 |
.904 |
提取方法:主成分分析法。 |
几乎所有变量共同度都在80%以上,因此提取出的这几个公因子对各变量到解释能力是较强的。
碎石图用于显示各因子的重要程度,它将因子按特征根从大到小排列。前3个因子的散点位于陡坡上,而后5个因子散点形成了平台,且特征根均小于1,因此最多考虑前3个公因子即可。
成分矩阵a |
|||
|
成分 |
||
1 |
2 |
3 |
|
GDP |
.884 |
.385 |
.120 |
居民消费水平 |
.606 |
-.596 |
.277 |
固定资产投资 |
.911 |
.163 |
.213 |
职工平均工资 |
.465 |
-.725 |
.362 |
货物周转量 |
.486 |
.737 |
-.279 |
居民消费价格指数 |
-.510 |
.257 |
.794 |
商品价格指数 |
-.621 |
.596 |
.433 |
工业总产值 |
.822 |
.429 |
.210 |
提取方法:主成分分析法。 |
|||
a. 提取了 3 个成分。 |
在(1)用作各主成分系数。
总方差解释 |
|||||||||
成分 |
初始特征值 |
提取载荷平方和 |
旋转载荷平方和 |
||||||
总计 |
方差百分比 |
累积 % |
总计 |
方差百分比 |
累积 % |
总计 |
方差百分比 |
累积 % |
|
1 |
3.754 |
46.924 |
46.924 |
3.754 |
46.924 |
46.924 |
3.207 |
40.092 |
40.092 |
2 |
2.203 |
27.532 |
74.456 |
2.203 |
27.532 |
74.456 |
2.217 |
27.708 |
67.800 |
3 |
1.208 |
15.096 |
89.551 |
1.208 |
15.096 |
89.551 |
1.740 |
21.752 |
89.551 |
4 |
.403 |
5.042 |
94.593 |
|
|
|
|
|
|
5 |
.214 |
2.673 |
97.266 |
|
|
|
|
|
|
6 |
.138 |
1.722 |
98.988 |
|
|
|
|
|
|
7 |
.066 |
.829 |
99.817 |
|
|
|
|
|
|
8 |
.015 |
.183 |
100.000 |
|
|
|
|
|
|
提取方法:主成分分析法。 |
前3个因子的方差贡献率仍为89.55%,和旋转前完全相同,因此选前3个因子足够描述经济发展的水平。
成分得分系数矩阵 |
|||
|
成分 |
||
1 |
2 |
3 |
|
GDP |
.306 |
.011 |
.047 |
居民消费水平 |
.025 |
.387 |
.040 |
固定资产投资 |
.270 |
.129 |
.075 |
职工平均工资 |
-.025 |
.451 |
.096 |
货物周转量 |
.248 |
-.319 |
-.139 |
居民消费价格指数 |
.070 |
.180 |
.653 |
商品价格指数 |
.077 |
-.098 |
.462 |
工业总产值 |
.317 |
.026 |
.123 |
提取方法:主成分分析法。 旋转方法:凯撒正态化最大方差法。 |
写出各公因子的表达式,
1 FACTOR 2 /VARIABLES x1 x2 x3 x4 x5 x6 x7 x8 3 /MISSING LISTWISE 4 /ANALYSIS x1 x2 x3 x4 x5 x6 x7 x8 5 /PRINT INITIAL KMO EXTRACTION ROTATION FSCORE 6 /PLOT EIGEN 7 /CRITERIA MINEIGEN(1) ITERATE(25) 8 /EXTRACTION PC 9 /CRITERIA ITERATE(25) 10 /ROTATION VARIMAX 11 /METHOD=CORRELATION.
小结
当特殊因子变差贡献率为0时,主成分分析和因子分析完全等价。因此当因子模型成立,而且当因子模型成立,而且特殊因子变差贡献很小时,可以期待二者得到相同结果,而当特殊因子贡献较大时,因子分析把公因子和特殊因子严格区分开,而主成分分析则把这些因子不加区别地混在一起作为主成分保留或舍弃,此时二者在结果上存在明显不同。
如果不需要仔细研究变量的内部结构,只需要进行综合评价,使用主成分显然更加简单,同时不需要考虑数据阵的结构形式问题。如果要考察变量的内部结构,则因子分析法显然更合适,通过因子旋转可以得到的公因子更容易解释。同时,因子分析在进行综合评价时,可以通过适用性检验检验变量组的设置是否合理。