【机器学习】关于PCA不能用于过拟合的思考

关于 PCA 不能用于处理过拟合的思考

为什么会出现过拟合？

所谓的过拟合，就是模型在训练集上表现优异，但是其泛化能力差，在测试集以及实际环境中表现不好。

之所以出现过拟合，就是在训练模型的时候，掺杂了一些与目标相关性较弱的特征，这些特征扭曲了模型的参数，如果模型过分依赖这些特征，那么在实际环境中，这些无关参数可能导致预测出现极大的偏差。

举一个例子：所谓的“迷信”就是一种过拟合，无关的特征严重影响了动物对于结果的预测，比如“天上有流星坠落，地上就会有坏事发生”，流星坠落这个无关特征被过分强调，导致出现迷信，而事实上，如果你的数据集足够大，你就会发现，天上有没有流星坠落，地上总会有不好的事情发生，迷信的人则故意挑选了有流星坠落的数据集来训练模型。

如何防止过拟合？

既然了解了出现过拟合的原因，那么也就知道了如何解决过拟合。

我们只需要降低这些关联性较弱的特征在模型中的权重，就能有效纠正模型，这也就是所谓的正则化。如果把某一特征的权重降为0，那么其实就是删去了这一特征。所以删除一些特征，也能够改进过拟合。

为什么PCA不能有效处理过拟合

PCA的思想就是在尽可能保留更多特征的同时对特征进行压缩。

PCA的过程中，确实会丢掉一些特征，但是需要注意的是，丢弃的这些特征不一定是与目标值关联性较差的特征。

简而言之，PCA就是为了降维而不得不丢弃某些特征，但正则化则是有意识地丢弃了那些与目标值关联不大的特征。

posted @ 2022-05-10 09:13 杨谖之阅读(201) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Loading

Tiumo's Blog

自我控制是最强者的本能。

【机器学习】关于PCA不能用于过拟合的思考

关于 PCA 不能用于处理过拟合的思考

为什么会出现过拟合？

如何防止过拟合？

为什么PCA不能有效处理过拟合

公告