吴恩达老师机器学习课程学习--课程十四
课程十四 降维
降维是我们学习的第二种无监督学习问题。降维主要用于两点:一是数据压缩,二是数据可视化。
1、数据压缩、数据可视化
数据压缩不仅可以帮助我们压缩数据,减少使用的内存,也可以加快我们的学习算法。在机器学习中,降维可以把训练集拥有的高维特征降成低维,这样能够加快学习算法。
数据可视化能够帮助我们找到更好的解决方案。一般具有高维特征的数据集不好可视化,我们现在能够可视化的数据一般都是二维、三维。所以,通过降维,可以把高维数据降到低维,达到可视化的目的。
2、主成分分析算法
主成分分析(PCA)是常见的降维算法。
在PCA中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。
下面给出主成分分析问题的描述:
例如:将特征从n维降到k维:
使用降维的机器学习算法的一般步骤:
1:运用PCA对数据进行降维。
2:训练学习算法。
3:在预测前,采用之前学习而来的将输入的特征x转换成特征向量z,然后再进行预测。