2013 年 6月 15 日随笔档案 - TheLongRoad

2013年6月15日

摘要：给定一个训练数据集，其中的实例类别已定。要确定新的实例类别时，根据训练数据集中k个最邻近的实例的类别，通过多数表决等方式进行预测。k近邻实际是利用训练数据集对特征向量空间进行划分，不具有显式的学习过程。特征空间中两个实例点的距离是两个实例点相似程度的反映，k近邻模型一般使用欧式距离，但也可以是其他距离，如Lp距离、Minkowski距离。在应用中，k值一般去一个比较小的值，通常采用交叉验证法来选取最优的k值。最简单的实现方法是线性扫描，这时要计算输入实例与每一个训练实例的距离。当训练集很大时，这种方法是不可行的。为了提高搜索效率，可以采用kd树方法。 kd树是k-dimensio... 阅读全文

posted @ 2013-06-15 20:07 TheLongRoad 阅读(302) 评论(0) 推荐(0) 编辑

TheLongRoad

公告