机器学习基石笔记-Lecture 13 Overfitting
overfitting产生的主要原因:
1.vc维过大,也就是模型复杂度过高。
2.noise过大,然后被机器学习拟合了。
3.数据量太少。
样本量与Eout的关系,对复杂度高的模型,在N小时更容易过拟合。
本节对模型复杂度的一个说法是 它相当于加入了noise,没太明白。。
noise、data以及复杂度对overfitting的影响
高斯噪声也叫做随机噪声(stochastic noise)
目标的复杂度也叫做确定性噪声(deterministic nosie)
比如一个十次项的目标函数产生的点,用一个二次项来拟合,那么这些点中必定有一些是在二次项之外的,就相当于是噪声。但是这个噪声是和H有关的,比如50阶的目标函数对于50阶的H应该就没有所谓的噪声了?
如何应对overfitting?
使用简单的模型,根据之前VC维的理论,简单的模型VC维较低,可以得到较低的Eint
剪枝或者数据清洗,降低噪声带来的影响
数据的提示,在原特征上再挖掘有用特征,这样可以弥补训练样本少带来的问题
正则项
验证