过拟合问题是什么?
为了得到一致假设而使假设变得过度严格,称为过拟合。
避免过拟合,是分类器设计中的一个核心任务。
通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
想象某种学习算法产生了一个过拟合分类器,这个分类器能够百分之百的正确分类样本数据,为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规格如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。
(a)中虽完全拟合了样本数据,但在(b)中使用该分类器对测试数据分类准确度很差。
(c)中虽没有完全拟合样本数据,但在(d)中使用该分类器对测试数据分类准确度却很高。
过拟合问题出现,往往是由于训练样本数据太少等原因造成的。