【R统计】主成分分析1
习题:
9.1用主成分方法探讨城市工业主体结构。下表是某事工业部门十三个行业,分别是冶金(1)、电力(2)、煤炭(3)、化学(4)、机械(5)、建材(6)、森工(7)、食品(8)、纺织(9)、缝纫(10),皮革(11)、造纸(12)和文教艺术用品(13),八个指标分别是年末固定资产净值X1(万元)、职工人数X2(人)、工业总产值X3(万元)、全员劳动生产率X4(元/人年)、百元固定元值实现产值X5(元)、资金利率X6(%)、标准燃料消费量X7(吨)和能源利用效果X8(万元/吨)的数据。
(1)试用主成分分析方法确定8个指标的几个主成分,并对主成分进行解释;
(2)利用主成分得分对13个行业进行排序和分类。
原始数据(data.txt):
X1 X2 X3 X4 X5 X6 X7 X8 1 90342 52455 101091 19272 82.0 16.1 197435 0.172 2 4903 1973 2035 10313 34.2 7.1 592077 0.003 3 6735 21139 3767 1780 36.1 8.2 726396 0.003 4 49454 36241 81557 22504 98.1 25.9 348226 0.985 5 139190 203505 215898 10609 93.2 12.6 139572 0.628 6 12215 16219 10351 6382 62.5 8.7 145818 0.066 7 2372 6572 8103 12329 184.4 22.2 20921 0.152 8 11062 23078 54935 23804 370.4 41.0 65486 0.263 9 17111 23907 52108 21796 221.5 21.5 63806 0.276 10 1206 3930 6126 15586 330.4 29.5 1840 0.437 11 2150 5704 6200 10870 184.2 12.0 8913 0.274 12 5251 6155 10383 16875 146.4 27.5 78796 0.151 13 14341 13203 19396 14691 94.6 17.8 6354 1.574
脚本:
#p269 9.1 #p220 #读取数据 hangye<-read.table("data.txt"); #### 作主成分分析,并显示结果 hangye.pr<-princomp(hangye, cor=TRUE) summary(hangye.pr, loadings=TRUE) ###输出 # Importance of components: # Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 # Standard deviation 1.7620762 1.7021873 0.9644768 0.80132532 0.55143824 # Proportion of Variance 0.3881141 0.3621802 0.1162769 0.08026528 0.03801052 # Cumulative Proportion 0.3881141 0.7502943 0.8665712 0.94683649 0.98484701 # Comp.6 Comp.7 Comp.8 # Standard deviation 0.29427497 0.179400062 0.0494143207 # Proportion of Variance 0.01082472 0.004023048 0.0003052219 # Cumulative Proportion 0.99567173 0.999694778 1.0000000000 # Loadings: # Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 # X1 0.477 -0.296 -0.104 0.184 0.758 0.245 # X2 0.473 -0.278 -0.163 -0.174 -0.305 -0.518 0.527 # X3 0.424 -0.378 -0.156 -0.174 -0.781 # X4 -0.213 -0.451 0.516 0.539 0.288 -0.249 0.220 # X5 -0.388 -0.331 -0.321 -0.199 -0.450 0.582 0.233 # X6 -0.352 -0.403 -0.145 0.279 -0.317 -0.714 # X7 0.215 0.377 -0.140 0.758 -0.418 0.194 # X8 -0.273 0.891 -0.322 0.122 ###解释 #前两个主成分解释了75%的差异 #Comp.1 反映的是“高固定资产、高职工人数、高工业产值、低全员生产率、低资金利率、低标准燃料消费”,看做规模因子 #Comp.2 反映的是“高标准燃料消费、低全员劳动生产率、低资金利税率”,看做燃料因子 #Comp.3 反映的是“高能源利用效果”,看做能源利用率因子 #### 作预测 predict(hangye.pr) #### 作图,分类和排序 biplot(hangye.pr)
图片:
解答:
(1)见脚本注释。
(2)见上图。可按前两轴排序。3 2 6可分为一组,属于能源消耗类重工业;11 7 12分为一组,为资源消耗类轻工业;1 4为化学工业;9 10 13为劳动力密集型制造业; 8 为食品业。
博文源代码和习题均来自于教材《统计建模与R软件》(ISBN:9787302143666,作者:薛毅)。