机器学习实战---学习笔记(第二章)

K-近邻算法（kNN）

简单地说，k-近邻算法采用测量不同特征值之间的距离方法来进行分类。

优点：精度高、对异常值不敏感、无数据输入假定。

缺点：计算复杂度高、空间复杂度高。

k-近邻算法的一般流程：

(1)收集数据:可以使用任何方法。

(2)准备数据:距离计算所需要的数值，最好是格式化的数据格式。

(3)分析数据:可以使用任何方法。

(4)训练算法:此步骤不适用于k-近邻算法。

(5)测试算法:计算错误率。

(6)使用算法:首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，

最后应用对计算出的分类执行后续的处理。

伪代码：

对未知类别属性的数据集中的每个点依次执行以下操作：

(1)计算已知类别数据集中的点与当前点的距离

(2)按照距离递增次序排序

(3)选取与当前点距离最小的k个点

(4)确定前k个点所在的类别的出现频率

(5)返回前k个点出现频率最高的类别作为当前点的预测分类

posted @ 2016-12-17 20:16 fubst0318 阅读(105) 评论(0) 收藏举报

刷新页面返回顶部

fubst0318