数据划分
数据划分
数据集分类
通常会将数据集分层三类:
- 训练集(Training Sets):采用训练集进行训练时,通过改变几个超参数的值,将会得到几种不同的模型。
- 验证集(Development Sets):开发集又称为交叉验证集(Hold-out Cross Validation Sets),它用来找出建立的几个不同模型中表现最好的模型。
- 测试集(Test Sets):对算法的好坏程度做无偏估计。
注意:
- 训练集和测试集的数据来自同一分布。
- 测试集的目的是对最终所选定的神经网络系统做出无偏估计,如果不需要无偏估计,也可以不设置测试集。在不设置测试集时,常把验证集称为测试集。
数据集划分原则
- 小数据量(10000以内):
- 三七分:70%训练集,30%测试集。
- 六二二:60%训练, 20%验证和 20%测试集。
- 大数据(百万级):
- 练集可以占到 99.5%,验证和测试集各占 0.25%,或者验证集占 0.4%,测试集占 0.1%。