主成分和因子分析
一、主成分分析概述:
- 是否可以用较少的几个相互独立的指标代替原来的多个指标,使其既能减少指标个数,又能综合反映其原指标的信息?主成分分析结解决这个问题。
- 有些变量不能或不易直接观察,他们只能通过其他多个可观察指标来间接反映。
- 主成分分析:基本思想降维,将多个相互关联的数值指标转化为少数几个互不相关的综合指标,综合后的指标就是原来多指标的主要成分。
- 举例:两个指标x1(年龄)和x2(身高),x1和x2呈线性正相关,将该直线作为新坐标系的横轴z1,取一条与z1垂直的纵轴z2。在新坐标系中,n个点不再呈线性相关,即z1和z2两个新变量互相独立,且变异主要集中在z1方向,说明z1的方差较大,z2的方差较小。如果此时要研究n个儿童年龄与身高,只需要考虑z1这个变量即可。
- 我们称z1为第一主成分,z2为第二主成分。
- 主成分个数的选取:
- 前k个主成分的累积贡献率达到某一特定值(一般采用70%)
- 特征根>=1
结果分析:
- 各指标间的相关矩阵
- 公因子方差:初始值为1,提取里有0说明是特殊因素
- 解释的总方差:选取主成分个数
- 成分矩阵:根据0.5原则,大于0.5的作为主成分包含的内容
- 成分得分系数矩阵:将所有的主成分标示为各个变量的线性组合。
- 主成分得分计算公式:z=Σscorei*stdxi ;stdxi=(xi-μ)/σ ;scorei-成分得分系数,stdxi-标准指标变量,μ-均值,σ-标准差
二、因子分析概述:
- 有些变量不能或不易直接观察,他们只能通过其他多个可观察指标来间接反映。例如:医院医疗工作质量不易直接观察,但可以通过门诊人次、出院人数、诊断符合率、治愈率、病死率等一些可观测指标来反映医院医疗工作质量这个潜在变量。
- 通常,多变量之间具有相关性,其产生的原因可能是潜在的因素对观察的变量起支配作用,如何找出这些潜在的因素?这些潜在因素是如何对原始指标起支配作用?因子分析解决这个问题。
- 因子分析:一种寻找潜在支配因子的模型分析方法,作用是分析可观察到的原始多个变量,找出数目相对较少的,对原始变量有潜在支配作用的因子。找出共性因子变量,估计因子模型,计算共性因子变量的取值和对共性因子变量做出合理的解释。
- 因子分析分为两类:探索性因子分析,确定性因子分析。
- 探索性因子分析(简称因子分析):应用在数据分析初期阶段,目的是探究原可测变量的特征、性质及其内部的关联性,揭示哪些主要的潜在因子可能影响这些可测变量。分析的结果一般不需要进行统计检验,可建立理论变量。
- 确定性因子分析:在探索性因子分析的基础上进行的,进一步明确每个潜在因子对可测变量的影响程度和关联程度,该分析不要求找出潜在因子之间相互独立,目的是明确潜在因子之间关联性。分析结果需要统计校验。
结果分析:
- 主成分信息,取特征值大于1的,如果大于1的累计贡献率过低,也可以选取特征值小于1的。这里可看出,约82.488%的总方差可以由2个潜在因子解释。
- 累计贡献率达到85%
解释的总方差 |
|||||||||
成份 |
初始特征值 |
提取平方和载入 |
旋转平方和载入 |
||||||
合计 |
方差的 % |
累积 % |
合计 |
方差的 % |
累积 % |
合计 |
方差的 % |
累积 % |
|
1 |
2.731 |
45.520 |
45.520 |
2.731 |
45.520 |
45.520 |
2.688 |
44.802 |
44.802 |
2 |
2.218 |
36.969 |
82.488 |
2.218 |
36.969 |
82.488 |
2.261 |
37.687 |
82.488 |
3 |
.442 |
7.360 |
89.848 |
|
|
|
|
|
|
4 |
.341 |
5.688 |
95.536 |
|
|
|
|
|
|
5 |
.183 |
3.044 |
98.580 |
|
|
|
|
|
|
6 |
.085 |
1.420 |
100.000 |
|
|
|
|
|
|
提取方法:主成份分析。 |
- 公因子方差比
- 旋转后的因子矩阵:比旋转前的因子起到了明显的分离作用,使各因子具有较明确的专业意义。
三、主成分分析和因子分析异同:
- 两者都是在多个原始变量中通过它们之间的内部相关性获得新的变量(主成分变量或公因子变量),达到既能减少分析指标个数,又能概况原始指标主要信息的目的。
- 主成分数学模型为z=Bx,因子分析数学模型为z=Bx+e,既原始变量z为公因子x与特殊因子e的线性组合;
- 主成分分析主要是综合原始变量的信息,实质上是线性变换,无假设检验;因子分析重在解释原始变量之间的关系,是统计模型。
- 两者SPSS操作一样,因子分析需要选择“旋转”。