1-1 训练,验证,测试集
训练,验证,测试集( Train / Dev / Test sets)
在配置训练、验证和测试数据集的过程中做出正确决策会在很大程度上帮助大家创建高效的神经网络。
通常我们会将数据集分层三类:
训练集:执行算法
验证集,也称作简单的交叉验证集:选择好的模型
测试集:对模型性能进行评估
数据集划分原则:
小数据量(10000以内):
三七分:70%训练集,30%测试集。
六二二:60%训练, 20%验证和 20%测试集。
大数据(百万级):
练集可以占到 99.5%,验证和测试集各占 0.25%,或者验证集占 0.4%,测试集占 0.1%。
注意:
训练集和测试集的数据来自同一分布。
测试集的目的是对最终所选定的神经网络系统做出无偏估计,如果不需要无偏估计,也可以不设置测试集。在不设置测试集时,常把验证集称为测试集。