初识机器学习_02 K-近邻算法

  

  采用测量不同特征之间距离的方法进行分类

  优点:精度高,对异常不敏感,无数据输入假定

  缺点:计算复杂度高,空间复杂度高

  适用:数值型,标称型

 

  原理:存在一个样本数据集,其中每一个数据都存在标签(分类)即训练集中每个数据与所属分类对应关系已知。

     输入无标签(分类标签)数据,将新数据的每个特征(数值)与样本集中的数据对应特征进行比较(计算距离),然后算法提取样本集中特征最相似(距离最近)的数据的分类标签,一般选取样本集中前K(k<=20)个最相似的数据(按距离排序),以出现次数最多的分类作为新数据的分类。

posted @ 2014-04-24 19:59  Gavinblog  阅读(108)  评论(0编辑  收藏  举报