一、为什么要降维:

  1、避免维数灾难,高维情况下容易产生过拟合

  2、特征之间如果存在明显的相关性(也叫共线性),此时就需要降维

  3、降维可以提取数据中的有效信息,去除噪音数据

  4、降维可以降低数据的复杂性,减少模型的训练时间

  5、可以方便对数据进行可视化处理,因为维数很高的话,无法可视化

二、PCA降维思想

  寻找某个轴线,使得样本映射到该轴线后,能够有最大的可区分度,衡量可区分度的指标就是求方差,现在的问题是如何求得这个轴线,使方差最大。

  用方差来定义样本间的间距,方差越大表示数据越稀松,方差越小则表示数据分布越密集,下图即方差公式。

  

 

在求解最大方差前,为方便计算,可先对数据进行去均值处理。

  去均值后,求最大方差公式可以减少计算的复杂度。

  求满足最大方差的轴线可用梯度上升法求解。

 

  PCA和LDA都是降维算法,他们的主要区别是:

  PCA为无监督方法,主要是主成分分析方法,Principal Component Analysis, 简称PCA。

PCA可以降到任意维度。

  LDA是有监督方法,主要是线性判别分析法,Linear Discriminant Analysis ,简称LDA。

LDA最多只能降到数据类别 -1