机器学习之特征选择和降维的理解
在机器学习中,特征选择和降维感觉好像差不多,维度都降低了,今天和其他同学交流学习才知道其实不然,区别很大。
一般情况下,我们不会使用原始数据直接去进行训练,因为原始数据的特征明显,信息丰富,我们训练后的效果对于训练集非常好,而对于测试集来说就很差了。这就是过拟合问题。
当我们进行特征提取后,维度依然不减,为了解决过拟合问题,就使用降维(常用PCA)或特征选择。
对于特征选择,就是从众多个特征中选择部分特征作为训练集的特征,抛弃剩余部分的特征,这样维度就减少了,但是选中的这部分特征就是原始数据中的特征值。
对于降维,降维与特征选择相比最主要的区别就是降维会发生特征数据值的变化,它是一个高维到低维的映射。
特征选择和降维都是为了解决过拟合问题。