动手深度学习四---一些概念及解决办法

Posted on 2019-05-28 11:20 棽棽阅读(223) 评论(0) 编辑收藏举报

1、训练误差和泛化误差

训练误差：训练集上表现出的误差

泛化误差：在任意测试样本上表现出的误差的期望

模型训练的目的就是降低泛化误差

2、模型选择及K折交叉验证

验证数据集：在实际训练模型的过程中，不能依据训练误差估计泛化误差，不能只依靠训练数据来选择模型，因此需要在原始数据集中预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。选择方式并不固定，为了保证数据集的随机性，可以采用随机选择的方式

K着交叉验证：训练数据集很少时，再在原始数据集中预留一部分作为验证数据集不适用。因此采用K折交叉验证，把原始训练数据集分割成K个不重合的子数据集，然后做K次模型训练和验证，每次，使用一个子数据集验证模型，剩下的K-1个模型训练模型。在K次训练和验证中，每次用来验证模型的子数据集都不同。最后对K次训练误差和验证误差求平均

3、过拟合和欠拟合

过拟合：训练误差远小于在测试集上的误差

欠拟合：无法得到较低的训练误差

影响因素：重点是模型复杂度、训练数据集大小