PCA降维算法

总结一下PCA的算法步骤

设有m条n维数据。

1)将原始数据按列组成n行m列矩阵X

2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值

3)求出协方差矩阵(个人:由这里的X在矩阵运算的左边,而协方差矩阵的维数是dim*dim,我们可以反推出数据矩阵X的维度即样本在X中应该如何放置)

4)求出协方差矩阵的特征值及对应的特征向量

5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX(数据矩阵在矩阵运算的右边时,数据按列放置。数据矩阵在矩阵运算左边时,数据按行放置。参数矩阵亦然)即为降维到k维后的数据
 

PCA算法的主要优点有:

  • 仅仅需要以方差衡量信息量不受数据集以外的因素影响
  • 各主成分之间正交可消除原始数据成分间的相互影响的因素
  • 计算方法简单主要运算是特征值分解易于实现

PCA算法的主要缺点有:

  • 主成分各个特征维度的含义具有一定的模糊性不如原始样本特征的解释性强
  • 方差小的非主成分也可能含有样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

posted on 2021-04-07 21:27  朴素贝叶斯  阅读(284)  评论(0编辑  收藏  举报

导航