数据集的训练集和测试集划分

留出法（hold-out）

留出法，直接将数据集

在使用留出法时，一般采用多次随即划分、重复进行实验评估后，取平均值作为留出法的评估结果。

交叉验证法，或

在使用交叉验证法时，通常要随机使用不同划分重复

例如，10次10折交叉验证法，进行了100次实验。

特别地，当

自助法，对于包含

当m趋于无穷时，样本在测试集中出现的概率趋于 $\lim_{m \to \infty} \big(1-\frac{1}{m}\big)^m=\frac{1}{e}lim(1−m1)m=e1自助法适用于数据集较小，难以有效划分训练集和测试集的情况；$

自助法产生的数据集改变了初始数据集的分布，引入了估计偏差；

因此，在数据量足够的情况下，一般使用留出法或交叉验证法。

测试集至少包含30个样例；

测试集/训练集划分时，要尽可能保持数据分布的一致性，例如，分类任务中保持样本类别比例相似（分层采样，stratified sampling）。

posted @ 2020-12-02 14:26 月夜_1 阅读(1326) 评论(0) 编辑收藏举报

刷新页面返回顶部