训练集验证集测试集

交叉验证既可以解决数据集的数据量不够大问题，也可以解决参数调优的问题。
主要有三种方式：留出验证（HoldOut检验）、k折交叉验证（k-fold交叉验证）、自助法。

留出验证

方法：将原始数据集随机划分成训练集和验证集两部分。尽量保持训练集和测试集分布一致
例如，将样本按照70%~30%的比例分成两部分，70%的样本用于训练模型；30%的样本用于模型验证。
缺点：
（1）数据都只被用了一次，没有被充分利用
（2）在验证集上计算出来最后的预测准确率受数据集划分的影响。

k折交叉验证

为了解决简单交叉验证的不足，提出k-fold交叉验证。
步骤：
1、首先，将全部样本划分成k个大小相等的样本子集；
2、依次遍历这k个子集，每次把当前子集作为验证集，其余所有样本作为训练集，进行模型的训练和评估；
3、最后把k次评估指标的平均值作为最终的评估指标。在实际实验中，k通常取10.
例如取k=10，如下图所示：

自助法

自助法是基于自助采样法的检验方法。对于总数为n的样本合集，进行n次有放回的随机抽样，得到大小为n的训练集。
n次采样过程中，有的样本会被重复采样，有的样本没有被抽出过，将这些没有被抽出的样本作为验证集，进行模型验证。
参考资料：
K折验证交叉验证
 机器学习干货篇：训练集、验证集和测试集

posted @ 2022-05-25 09:33 YTT77 阅读(196) 评论(0) 编辑收藏举报

刷新页面返回顶部

ttyangY77

临渊羡鱼不如退而结网

训练集验证集测试集

留出验证

k折交叉验证

自助法

公告

ttyangY77

临渊羡鱼 不如退而结网

训练集验证集测试集

留出验证

k折交叉验证

自助法

公告

临渊羡鱼不如退而结网