训练集验证集测试集
交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。
主要有三种方式:留出验证(HoldOut检验)、k折交叉验证(k-fold交叉验证)、自助法。
留出验证
方法:将原始数据集随机划分成训练集和验证集两部分。尽量保持训练集和测试集分布一致
例如,将样本按照70%~30%的比例分成两部分,70%的样本用于训练模型;30%的样本用于模型验证。
缺点:
(1)数据都只被用了一次,没有被充分利用
(2)在验证集上计算出来最后的预测准确率受数据集划分的影响。
k折交叉验证
为了解决简单交叉验证的不足,提出k-fold交叉验证。
步骤:
1、首先,将全部样本划分成k个大小相等的样本子集;
2、依次遍历这k个子集,每次把当前子集作为验证集,其余所有样本作为训练集,进行模型的训练和评估;
3、最后把k次评估指标的平均值作为最终的评估指标。在实际实验中,k通常取10.
例如取k=10,如下图所示:
自助法
自助法是基于自助采样法的检验方法。对于总数为n的样本合集,进行n次有放回的随机抽样,得到大小为n的训练集。
n次采样过程中,有的样本会被重复采样,有的样本没有被抽出过,将这些没有被抽出的样本作为验证集,进行模型验证。
参考资料:
K折验证交叉验证
机器学习干货篇:训练集、验证集和测试集