PCA-1.降维原理

主成分分析(Principal Component Analysis)

  • 一个非监督的机器学习算法
  • 主要用于数据的降维
  • 通过降维,可以发现更易于人类理解的特征
  • 其他应用:可视化,去噪

降维


上图为含有两个特征的样本空间,数据的维度为2,可以忽视一个不明显的特征,保留一个相对差距明显的特征进行降维

显然选择特征1效果好一点
我们也可以选择一条更适合的直线(方差最大),把所有的点映射到这个直线上,来达到降维的目的

方差定义:\(Var(x) = \frac{1}{m}\sum(x_i - \bar{x})^2\).

第一步:将所有样本的均值归0(demean)

假设某轴\(w = (w1,w2)\),使得所有的样本映射到\(w\)上,有:

\[Var(X_p) = \frac{1}{m}\sum_{i=1}^{m}\left \| X^i_p \right \|^2最大 \]

其中\(X^i_p\)代表映射在此轴的样本
根据向量点乘的定义,又因为\(w\)是方向向量,膜为1 :

所以: $$\left | X^i_p \right | = X^i \cdot w$$
目标:求\(w\),使得:

\[Var(X_p) = \frac{1}{m}\sum_{i=1}^{m}(X^i \cdot w)^2 最大 \]

一个目标函数的最优问题,采用梯度上升法

posted @ 2019-07-21 12:14  凌晨四点的洛杉矶  阅读(338)  评论(0编辑  收藏  举报