摘要: 给定一个训练数据集,其中的实例类别已定。要确定新的实例类别时,根据训练数据集中k个最邻近的实例的类别,通过多数表决等方式进行预测。k近邻实际是利用训练数据集对特征向量空间进行划分,不具有显式的学习过程。 特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型一般使用欧式距离,但也可以是其他距离,如Lp距离、Minkowski距离。在应用中,k值一般去一个比较小的值,通常采用交叉验证法来选取最优的k值。 最简单的实现方法是线性扫描,这时要计算输入实例与每一个训练实例的距离。当训练集很大时,这种方法是不可行的。为了提高搜索效率,可以采用kd树方法。 kd树是k-dimensio... 阅读全文
posted @ 2013-06-15 20:07 TheLongRoad 阅读(302) 评论(0) 推荐(0) 编辑