因子分析基本理论
一、主成分分析的几何意义(降维):
假定数据点是六维的;也就是说,每个观测值是 6 维空间中的一个点。我们希望把 6 维空间用低维空间表示。
先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的),那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。
当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。
对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。
首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。
注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分 (principal component) 。
正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。
选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约 85% 即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。
二、因子分析的数学模型
- 模型(R型)
设为观察到的随机向量,是不可观测的向量。
有
即
其中称作误差或特殊因子。
满足假设:
1)
2),
3),。
称为第个公共因子,为因子载荷。
- 公共因子:因子载荷和变量共同度的统计意义。
假定因子模型中,所有变量和因子都已标准化。
(1)因子载荷的统计意义
设
则 由于,不相关,且 即 因子载荷是第i个变量与第j个公共因子的相关系数。
(2)公共因子的方差贡献的统计意义
因子载荷矩阵中列的平方和。
称为公共因子对的贡献,是衡量公共因子相对重要性的指标。
三、计算因子载荷
最小二乘法
四、因子旋转
建立因子分析数学模型的目的不仅是为了找出公共因子,更重要的是要知道每个公共因子的意义,以便对实际问题进行分析。如果每个公共因子的涵义不清,不便于对实际背景进行解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转,即用一个正交阵右乘使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小。这种变换因子载荷的方法称为因子旋转。
因子旋转有方差最大正交旋转和斜交旋转,此处只介绍方差最大正交旋转。
先考虑两个因子的平面正交旋转,设因子载荷矩阵为:
,,
为正交矩阵。
记
(*)
这样做目的是希望所得结果能使载荷矩阵的每一列元素按其平方值说或者尽可能大或者尽可能小,即向1和0两极分化,或者说因子的贡献越分散越好。这实际上是希望将变量分成两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关,这也就是要求这两组数据的方差要尽可能地大,考虑各列的相对方差
这里取是为了消除符号不同的影响,除以是为了消除各个变量对公共因子依赖程度不同的影响。现在要求总的方差达到最大,即要求使
达到最大值,于是考虑对的导数,求出最大值。
如果公共因子多于2个,我们可以逐次对每2个进行上述的旋转,当公共因子数时,可以每次取2个,全部配对旋转,旋转时总是对阵中第列、列两列进行,此时公式(*)中只需将, 就行了。因此共需进行次旋转,但是旋转完毕后,并不能认为就已经达到目的,还可以重新开始,进行第二轮次配对旋转。依次进行,可以是总的方差越来越大,直到收敛到某一极限。
五、主成分分析和因子分析区别
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。