主成分分析(PCA)
§1 基本思想
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据进行最佳综合简化。也就是说,对高维变量空间进行降维处理。研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。
§2 数学模型
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),要求保留主要信息量的原则(即充分反映原指标的信息),并且相互独立。
这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。
§4 主成分分析优劣的判定标准
- 第一,尽量将更多变量压缩在第一主成分和第二主成分之内;
- 第二,第一主成分解释的信息能够超过 50%;
- 第三,第一主成分和第二主成分解释的信息总和超过 70%;
- 第四,第一主成分除以第二主成分的比值大于 3;
- 第五,用更少的主成分代表更多的变量。