KNN算法

机器学习算法完整版见fenghaootong-github

KNN算法

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

三要素：k值选择、距离矢量、分类决策规则

k值选择

应用中，k值一般取一个较小的数值

如果k=3，在已有的分类样本上，这时来了一个新样本，那么这个新样本所属的类就是在最临近的三个样本中占较大比重的那一类。

距离矢量

特征空间中两个实例点的距离是两个实例点相似程度的反映
K近邻模型的特征空间的距离一般为欧式距离，也可以是 $L_{p}$ 距离：

$L_{p} (\vec{x_{i}}, \vec{x_{j}}) = (\sum_{l = 1}^{n} | x_{i}^{(l)} - x_{i}^{(l)} |^{p})^{1 / p}$

$\vec{x_{i}}, \vec{x_{j}} \in χ = R^{n}$
$\vec{x_{i}} = (x_{i}^{(1)}, x_{i}^{(2)}, . . ., x_{i}^{(n)})^{T}$
$\vec{x_{j}} = (x_{j}^{(1)}, x_{j}^{(2)}, . . ., x_{j}^{(n)})^{T}$
$p \geq 1$

当p=2时，为欧式距离： $L_{2} (\vec{x_{i}}, \vec{x_{j}}) = (\sum_{l = 1}^{n} | x_{i}^{(l)} - x_{i}^{(l)} |^{2})^{1 / 2}$
当p=1时，为曼哈顿距离： $L_{1} (\vec{x_{i}}, \vec{x_{j}}) = \sum_{l = 1}^{n} | x_{i}^{(l)} - x_{i}^{(l)} |$
当p= $\infty$ 无穷大时，为各维度距离中的最大值： $L_{\infty} (\vec{x_{i}}, \vec{x_{j}}) = m a x_{l} | x_{i}^{(l)} - x_{i}^{(l)} |$

分类决策规则

误分类率

$\frac{1}{k} \sum_{\vec{x_{i}} \in N_{k} (\vec{x})} I (y_{i} \neq c_{j}) = 1 - \frac{1}{k} \sum_{\vec{x_{i}} \in N_{k} (\vec{x})} I (y_{i} = c_{j})$

$c_{j}$ 表示类别

多数表决

$y = c_{j} = a r g m a x_{c_{j}} \sum_{\bar{x_{i}} \in N_{k} (\bar{x})} I (y_{i} \neq c_{j}), i = 1, 2, 3, . . ., N; j = 1, 2, 3, . . ., K$

KNN算法经典实例

KNN算法经典实例

posted on 2018-03-08 10:54 一小白阅读(186) 评论(0) 收藏举报