数据量大小和模型大小之间的关系

作者：Henry
链接：https://zhuanlan.zhihu.com/p/539233251
来源：知乎

1、从模型方面考虑。举例说明：本身问题是二次的，用线性模型处理问题就是欠拟合，用三次及更高次处理问题就是过拟合。但是这里未考虑数据量的多少，只是针对本身模型阶次的考虑。而且现实问题，越强大的模型是很难确定模型复杂度的。

2、处理相同的问题时，在数据量多的情况，可以用相对复杂的模型处理问题，在数据量少的情况下，可以用相对简单的模型处理问题。过拟合：当数据量太少时，模型无法完成充分的训练，模型过度拟合用于训练的少量数据的信息，对测试数据效果不好，泛化能力差；欠拟合：数据量很多，但是模型太简单没有充分利用数据信息模型不够准确。

3、欠拟合：表现为模型特征维度过少，参数值较小等情况，此时模型过于简单，但是数据量很大，所用模型没有充分学习大量数据提供的信息，模型准确性差；
解决方法：（1）增加特征维度；增大参数值，换用更为复杂的模型等。
过拟合：表现为特征维度过多，参数值过大，此时模型假设过于复杂，但是训练数据过少，噪声过多，导致拟合的函数完美的拟合训练集，但对新数据的测试集预测结果差，泛化能力差。
解决方法：（1）减少特征维度；（2）正则化，降低某些过大的参数值。（3）在神经网络中dropout, 随机删减一些神经元。

综上所属可以总结为

（1）当模型在训练集上准确性一般，但是在测试集上表现也尚可，即泛化能力好时为欠拟合；

（2）当模型在测试集上表现不好，泛化能力差，但是对于训练数据准确性高时表现为过拟合；

（3）两者皆不好时考虑进一步数据与处理和特征选择或者换模型；

（4）两者都好时模型能够较好的拟合现有数据，皆大欢喜。