KNN算法

K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

如:绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类

(以上摘自百度百科)

在应用到图像分类中时有很大的弊端:

  • 分类器必须记住全部的训练数据(因为要遍历找近邻),而在任何实际的图像训练集上,数据量很可能非常大,那么一次性载入内存,不管是速度还是对硬件的要求,都是一个极大的挑战。
  • 每一次分类的时候要遍历所有的训练图片,这是一个相当耗时的过程。

总体来说,当有N个训练集和N个测试集,训练花的时间为O(1),因为根本不需要训练,只需要全部加进内存就好了,但是测试需要的时候为O(N),因为我们需要遍历所有训练图片,这和我们预期的是相反的,我们是希望训练花的时间久没关系,只要跑完生成模型,测试的时候能够快的出结果。对于这种现象,于是出现了线性分类器。

 

posted @ 2018-01-03 11:29  唐淼  阅读(245)  评论(0编辑  收藏  举报