机器学习中数据量多少与模型过拟合欠拟合之间的关系
参考链接:https://blog.csdn.net/insular_island/article/details/39099721
1、从模型方面考虑。举例说明:本身问题是二次的,用线性模型处理问题就是欠拟合,用三次及更高次处理问题就是过拟合。但是这里未考虑数据量的多少,只是针对本身模型阶次的考虑。而且现实问题,越强大的模型是很难确定模型复杂度的。
2、处理相同的问题时,在数据量多的情况,可以用相对复杂的模型处理问题,在数据量少的情况下,可以用相对简单的模型处理问题。过拟合:当数据量太少时,模型无法完成充分的训练,模型过度拟合用于训练的少量数据的信息,对测试数据效果不好,泛化能力差;欠拟合:数据量很多,但是模型太简单没有充分利用数据信息模型不够准确。
3、欠拟合:表现为模型特征维度过少,参数值较小等情况,此时模型过于简单,但是数据量很大,所用模型没有充分学习大量数据提供的信息,模型准确性差;
解决方法:(1)增加特征维度;,增大参数值,换用更为复杂的模型等。
过拟合:表现为特征维度过多,参数值过大,此时模型假设过于复杂,但是训练数据过少,噪声过多,导致拟合的函数完美的拟合训练集,但对新数据的测试集预测结果差,泛化能力差。
解决方法:(1)减少特征维度;(2)正则化,降低某些过大的参数值。(3)在神经网络中dropout, 随机删减一些神经元。
综上所属:可以总结为(1)当模型在训练集上准确性一般,但是在测试集上表现也尚可,即泛化能力好时为欠拟合;(2)当模型在测试集上表现不好,泛化能力差,但是对于训练数据准确性高时表现为过拟合;(3)两者皆不好时考虑进一步数据与处理和特征选择或者换模型;(4)两者都好时模型能够较好的拟合现有数据,皆大欢喜。