主成分分析及应用

PCA是一种统计方法,常用于解决数据降维、算法加速和数据可视化等问题,背后的数学工具是SVD。

一、主成分分析的内涵

通过正交变换将一组个数较多的、彼此相关的、意义单一的指标变量转化为个数较少的、彼此不相关的、意义综合的指标变量。转换后的这组

变量叫主成分。

二、关于降维

1.必要性

(1)多重共线性——预测变量间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。

(2)高维空间本身具有稀疏性。一维正态分布有68%的值落在正负标准差之间,而在十维空间上只有0.02%。

(3)过多的变量会妨碍查找规律的建立。

(4)仅在变量层面上分析可能会忽略变量间的潜在联系。

2.目的

(1)减少预测变量的个数

(2)确保这些变量相互独立

(3)提供一个框架来解释结果

3.方法

(1)PCA(2)因子分析(3)用户自定义复合

三、基本原理

将彼此相关的变量转变为彼此不相关的变量;方差较大的几个新变量就能综合反映原多个变量所包含的主要信息;新变量各自带有独特含义。

四、预备知识

计算协方差矩阵通常用以下简化方法:先让样本矩阵中心化,即每一维度减去该维度的均值,然后直接用得到的样本矩阵乘上它的转置,再除以N-1

五、PCA过程

1.特征中心化:变换后每一维的均值都为0

2.计算所得矩阵的协方差矩阵

3.计算协方差矩阵的特征值和特征向量

4.特征值按由小到大排列,也就给出了成分的重要性。忽略重要性小的成分。若原数据集是n维的,选择前p个主要成分,那数据仅有p维。

5.选取剩余特征值对应的特征向量,按序排列成变换矩阵。

6.得到降维后的数据

FinalData=rowFeatureVector*rowDataAdjust

其中rowFeatureVector是由模式矢量作为列组成的矩阵转置。rowDataAdjust是每一维数据减去平均值后所组成的矩阵的转置。FinalData

是最后得到的数据,数据项在列中,维沿着行。若要恢复原始数据,只需逆运算

六、补充说明

1.PCA不仅仅是对高维数据进行降维,更重要的是经过降维去除噪声,发现数据中的模式。

2.PCA把原先n个特征用数目更少的特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新特征互不相关。从旧特征

到新特征的映射捕获数据中的固有变异性。

posted @ 2018-10-21 22:02  研究僧小陈  阅读(5304)  评论(0编辑  收藏  举报