在交叉验证中,数据被分成 K 个折叠(或称为“组”或“块”),每个折叠都被用作验证集一次,而其余的 K-1 个折叠用作训练集。这个过程被称为 K 折交叉验证。
具体步骤如下:
将数据集随机分成 K 个子集(折叠)。
对于每个折叠,将模型训练在除该折叠之外的所有数据上。
使用当前折叠进行验证,计算模型的性能指标(比如准确性、F1分数等)。
重复上述步骤,每次选择不同的折叠作为验证集,其余作为训练集。
最终,将 K 次验证的性能指标取平均值,得到最终的交叉验证得分。
这种方法的好处是,每个样本都有机会在验证集中出现一次,从而更全面地评估模型的性能,减少了对单一训练-测试分割的依赖性。