过拟合

一、什么是过拟合

模型对训练的数据进行了过度的学习，没有学习到数据的一般规律，模型在训练数据中的错误越来越少，但是在验证集中的错误越来越大。

二、减少过拟合的方法

1.正则化（L1、L2正则化）

L1正则化是尽量减少绝对值的权重，使w参数尽可能向0靠近，减小了网络复杂度，防止过拟合。

L2正则化在原始的代价函数之后再加上一个正则化项，全部參数 w 的平方和，除以训练集的样本大小n，λ 就是正则项系数，权衡正则项与C0项的比重。另外另一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2,与1/2相乘刚好凑整。减小w的值，实现权重衰减。

正则化是为了减小w的值，从而降低模型的复杂度，防止过拟合现象的发生。

2.增大训练的数据集

数据增多，无法过拟合所有的样品，实现模型的泛化。

3.Dropout

通过该变模型的结构，降低过拟合，每一次迭代随机删除一部分的隐藏单元，每一次删除的隐藏单元都不同。

4.迭代次数的增多会出现过拟合现象，在测试集的错误率增多的时候提前终止训练过程。

在大多数情况下，模型从学习正确的数据分布开始，并且在某些时候开始过度拟合数据。

posted on 2021-10-29 16:04 啥123 阅读(123) 评论(0) 收藏举报