数据划分

数据划分

数据集分类

通常会将数据集分层三类:

  • 训练集(Training Sets):采用训练集进行训练时,通过改变几个超参数的值,将会得到几种不同的模型。
  • 验证集(Development Sets):开发集又称为交叉验证集(Hold-out Cross Validation Sets),它用来找出建立的几个不同模型中表现最好的模型。
  • 测试集(Test Sets):对算法的好坏程度做无偏估计。

注意:

  • 训练集和测试集的数据来自同一分布。
  • 测试集的目的是对最终所选定的神经网络系统做出无偏估计,如果不需要无偏估计,也可以不设置测试集。在不设置测试集时,常把验证集称为测试集。

数据集划分原则

  • 小数据量(10000以内):
    • 三七分:70%训练集,30%测试集。
    • 六二二:60%训练, 20%验证和 20%测试集。
  • 大数据(百万级):
    • 练集可以占到 99.5%,验证和测试集各占 0.25%,或者验证集占 0.4%,测试集占 0.1%。
posted @ 2019-04-10 14:36  youngliu91  阅读(310)  评论(0编辑  收藏  举报