《机器学习基石》---过拟合风险
1 产生过拟合的三个原因
过拟合就是Ein很小,而Eout很大的情况。产生过拟合的三个原因是,使用了过大的VC维,噪声,数据量太小:
2 如何解决过拟合
(1)从简单的model开始做;
(2)数据清理/裁剪:
(3)收集更多的数据;
(4)数据提示;
(5)正则化(后面介绍);
(6)验证(后面介绍)。
数据清理/裁剪:数据清理指修正标签,数据裁剪是指直接删除标签错误的数据。
数据提示:相当于自己构造一些新的样本。例如手写数字,把原来的图片稍微旋转和平移得到新的样本。