cs231笔记1

CIFAR10 是常用的数据集之一,有10个类别,50000个训练图片training images和10000个测试图片,testingimages

比较图片差异方式之一有L1距离

用test image的每个像素点的值减去train image的每个像素点的值

求差值后,将每个像素点的差值求和。


KNN  K临近算法

L2距离,也为欧氏距离,是两个值的平方和的平方根

L1距离受坐标轴的影响,L2则不会,L2更适合无量纲


需要有VAL数据集,用来优化参数等,最后用val调好的参数直接跑test数据集

较好的分组形式;

train 训练集 validation 验证集 test 测试集

如果用全部的数据做训练和测试,可能会出现过拟合现象

如果只有训练集和测试集,不能很好的得出算法在不同数据上的适应性


交叉验证

1 将train数据集分成许多份,取其中一份作为验证集。

2 将其中一份train数据和验证集互换。

例如

train数据集分为5份

train1 train2 train3 train4 train5

将train1 作为val验证集

val train2 train3 train4 train5 test

只训练train2 train3 train4 train5 


将train2 作为val验证集

train1 val train3 train4 train5 test

只训练train1 train3 train4 train5 

………..

将train5 作为val验证集

train1train2 train3 train4 valtest

只训练train1 train2 train3 train4


firefox_2020-02-25_17-19-37


L1和L2 相同距离下

firefox_2020-02-25_17-20-22


交叉验证示意图

firefox_2020-02-25_17-21-53

posted @ 2020-02-25 17:31  雪夜羽  阅读(164)  评论(0编辑  收藏  举报