cs231笔记1
CIFAR10 是常用的数据集之一,有10个类别,50000个训练图片training images和10000个测试图片,testingimages
比较图片差异方式之一有L1距离
用test image的每个像素点的值减去train image的每个像素点的值
求差值后,将每个像素点的差值求和。
KNN K临近算法
L2距离,也为欧氏距离,是两个值的平方和的平方根
L1距离受坐标轴的影响,L2则不会,L2更适合无量纲
需要有VAL数据集,用来优化参数等,最后用val调好的参数直接跑test数据集
较好的分组形式;
train 训练集 validation 验证集 test 测试集
如果用全部的数据做训练和测试,可能会出现过拟合现象
如果只有训练集和测试集,不能很好的得出算法在不同数据上的适应性
交叉验证
1 将train数据集分成许多份,取其中一份作为验证集。
2 将其中一份train数据和验证集互换。
例如
train数据集分为5份
train1 train2 train3 train4 train5
将train1 作为val验证集
val train2 train3 train4 train5 test
只训练train2 train3 train4 train5
将train2 作为val验证集
train1 val train3 train4 train5 test
只训练train1 train3 train4 train5
………..
将train5 作为val验证集
train1train2 train3 train4 valtest
只训练train1 train2 train3 train4
L1和L2 相同距离下
交叉验证示意图