公告

机器学习之KNN算法

一、距离度量

欧氏距离(Euclidean distance)：欧几里得度量（Euclidean Metric）（也称欧氏距离）是一个通常采用的距离定义，指在𝑚维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离

曼哈顿距离(Manhattan distance)：想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(City Block distance)。

切比雪夫距离(Chebyshev distance)：二个点之间的距离定义是其各坐标数值差绝对值的最大值。国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位子移至另一个位子需要走的步数。由于王可以往斜前或斜后方向移动一格，因此可以较有效率的到达目的的格子。上图是棋盘上所有位置距f6位置的切比雪夫距离。

闵可夫斯基距离(Minkowski distance)：𝑝取1或2时的闵氏距离是最为常用的

𝑝 = 2即为欧氏距离，
𝑝 = 1时则为曼哈顿距离。
当𝑝取无穷时的极限情况下，可以得到切比雪夫距离

汉明距离(Hamming distance)：汉明距离是使用在数据传输差错控制编码里面的，汉明距离是一个概念，它表示两个（相同长度）字对应位不同的数量，我们以表示两个字之间的汉明距离。对两个字符串进行异或运算，并统计结果为1的个数，那么这个数就是汉明距离。

余弦相似度：两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。

假定𝐴和𝐵是两个𝑛维向量，𝐴是$ [𝐴_1, 𝐴_2, … , 𝐴_𝑛]$，𝐵是$[𝐵_1, 𝐵_2, … , 𝐵_𝑛]$，则𝐴和𝐵的夹角的余弦等于:

二、KNN算法

𝑘近邻法（k-Nearest Neighbor,kNN）:是一种比较成熟也是最简单的机器学习算法，可以用于基本的分类与回归方法。

𝑘近邻法的三要素：

𝑘值选择
距离度量
决策规则

算法的主要思路：如果一个样本在特征空间中与𝑘个实例最为相似(即特征空间中最邻近)，那么这𝑘个实例中大多数属于哪个类别，则该样本也属于这个类别。

对于分类问题:对新的样本，根据其𝑘个最近邻的训练样本的类别，通过多数表决等方式进行预测。
对于回归问题：对新的样本，根据其𝑘个最近邻的训练样本标签值的均值作为预测值。

2.1 算法流程

计算测试对象到训练集中每个对象的距离
按照距离的远近排序
选取与当前测试对象最近的k的训练对象，作为该测试对象的邻居
统计这k个邻居的类别频次
k个邻居里频次最高的类别，即为测试对象的类别