机器学习中的训练集、验证集、测试集
训练集 (Training set)
用来训练分类器中的参数,拟合模型。会使用超参数的不同取值,拟合出多个分类器,后续再结合验证集调整模型的超参数。
验证集 (Validation set)
当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率。选出效果最佳的模型所对应的超参数,即用来调整模型超参。
测试集 (Test set)
通过训练集和验证集得出最优模型后,使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价。
交叉验证法 (Cross Validation)
其基本思路如下:将训练集划分为K份,每次采用其中K-1份作为训练集,另外一份作为验证集,验证集上K次误差的平均作为该模型的误差。
交叉验证的作用就是尝试利用不同的训练集/验证集划分来对模型做多组不同的训练/验证,来应对单独测试结果过于片面以及训练数据不足的问题。
交叉验证的目的是为了选择不同的模型类型,而不是选择具体模型的具体参数,模型类型选择完成后,最终的具体参数由全部的训练数据重新训练得到。