统计学习方法学习笔记-03-k近邻法

首先叙述 $k$ 近邻算法，然后讨论 $k$ 近邻模型及三个基本要素，最后讲述 $k$ 近邻法的一个实现方法， $kd$ 树，介绍构造和搜索 $kd$ 树的算法。

k近邻算法

输入：训练数据集 $T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中， $x_i \in \mathcal{X} \subseteq R^n$ 为实例的特征向量， $y_i \in \mathcal{Y} = \{c_1,c_2,\cdots,c_K\}为实例的类别$ ， $i = 1,2,\cdots,N$ ；实例特征向量 $x$
输出：实例 $x$ 所属的类 $y$

根据给出的距离度量，在训练集中找到和 $x$ 最近的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$
在 $N_k(x)$ 中根据分类决策规则(如多数表决)决定 $x$ 的类别 $y$ :

y = a r g \underset{c_{j}}{m a x} \sum_{x_{i} \in N_{k} (x)} I (y_{i} = c_{j}), i = 1, 2, \dots, N; j = 1, 2, \dots, K

$y = arg\ \mathop{max}\limits_{c_j}\sum_{x_i \in N_k(x)}I(y_i = c_j),i = 1,2,\cdots,N;j = 1,2,\cdots,K$

$I$ 为指示函数，当 $y_i = c_j$ 时 $I$ 为1，否则为0

k近邻模型的三要素

$k$ 近邻法使用的模型实际上对应着对特征空间的划分，模型三要素为距离度量、 $k$ 值的选择和分类决策规则

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。设特征空间 $\mathcal{X}$ 是 $n$ 维实数向量空间 $R^n$ ， $x_i,x_j \in \mathcal{X},x_i = (x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T,x_j = (x_j^{(1)},x_j^{(2)},\cdots,x_j^{(n)})^T$

$L_p$ 距离：

L_{p} (x_{i}, x_{j}) = {(\sum_{l = 1}^{n} | x_{i}^{(l)} - x_{j}^{(l)} |^{p})}^{\frac{1}{p}}

$L_p(x_i,x_j) = \left(\sum_{l=1}^n|x_i^{(l)} - x_j^{(l)}|^p \right)^{\frac{1}{p}}$

欧式距离Euclidean distance： $p = 2$

L_{2} (x_{i}, x_{j}) = {(\sum_{l = 1}^{n} | x_{i}^{(l)} - x_{j}^{(l)} |^{2})}^{\frac{1}{2}}

$L_2(x_i,x_j) = \left(\sum_{l=1}^n|x_i^{(l)} - x_j^{(l)}|^2 \right)^{\frac{1}{2}}$

曼哈顿距离Manhattan distance： $p = 1$

L_{1} (x_{i}, x_{j}) = \sum_{l = 1}^{n} | x_{i}^{(l)} - x_{j}^{(l)} |

$L_1(x_i,x_j) = \sum_{l=1}^n|x_i^{(l)} - x_j^{(l)}|$

各个坐标距离的最大值： $p = \infty$

L_{\infty} (x_{i}, x_{j}) = \underset{l}{m a x} | x_{i}^{(l)} - x_{j}^{(l)} |

$L_{\infty}(x_i,x_j) = \mathop{max}\limits_l|x_i^{(l)} - x_j^{(l)}|$

k值的选择

较小的 $k$ 值：学习的近似误差会减小，估计误差会增大，预测结果会对邻近的实例点非常敏感，如果该点恰好是噪声，预测就会出错，也就是说 $k$ 值的减小会使模型变得复杂，容易发生过拟合。
较大的 $k$ 值：学习的近似误差会增大，估计误差会减小，也就是说 $k$ 值的增大会使模型变得简单
一般使用交叉验证法来确定该值

分类决策规则

多数表决majority voting rule：如果分类的损失函数为0-1损失函数，分类函数为：

f : R^{n} \to {c_{1}, c_{2}, \dots, c_{k}}

$f:R^n \rightarrow \{c_1,c_2,\cdots,c_k\}$

那么误分类的概率是

P (Y \neq f (X)) = 1 - P (Y = f (X))

$P(Y \neq f(X)) = 1 - P(Y = f(X))$

对于给定的实例 $x \in \mathcal{X}$ ，其最邻近的 $k$ 个训练实例点构成集合 $N_k(x)$ ，如果涵盖 $N_k(x)$ 的区域的类别是 $c_j$ ，那么误分类率是：

\frac{1}{k} \sum_{x_{i} \in N_{k} (x)} I (y_{i} \neq c_{j}) = 1 - \frac{1}{k} \sum_{x_{i} \in N_{k} (x)} I (y_{i} = c_{j})

$\frac{1}{k}\sum_{x_i \in N_k(x)}I(y_i \neq c_j) = 1 - \frac{1}{k}\sum_{x_i \in N_k(x)}I(y_i = c_j)$

要使误分类率最小即经验风险最小，就要使 $\sum_{x_i \in N_k(x)}I(y_i = c_j)$ 最大，所以多数表决规则等价于经验风险最小化。

k近邻法的实现：kd树

目的：对训练数据进行快速 $k$ 近邻搜索

构造 $kd$ 树

输入： $k$ 维空间数据集 $T = \{x_1,x_2,\cdots,x_N\}$ ，其中 $x_i = (x_i^{(1)},x_i^{(2)},\cdots,x_i^{(k)})^T,i = 1,2,\cdots,N$
输出：平衡 $kd$ 树

构造根节点，使根节点对应于 $k$ 维空间中包含所有实例点的超矩形区域；
对于深度为 $j$ 的树结点，选择 $x^{(l)}$ 为切分的坐标轴， $l = j(mod\ k) + 1$ ，以该结点的区域中的所有实例点的 $x^{(l)}$ 坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域，对应两个子结点，左子结点对应坐标 $x^{(l)}$ 小于切分点的子区域，右子结点对应坐标 $x^{(l)}$ 大于切分点的子区域，将落在切分超平面上的实例点保存在该结点；
重复第二步，直到两个子区域内没有实例点时终止；

搜索 $kd$ 树

输入：已构造的 $kd$ 树，目标点 $x$ ；
输出： $x$ 的最近邻；
更适用于训练实例数远大于空间维数的情况，平均计算复杂度为 $O(\log N)$

在 $kd$ 树中找到包含目标点 $x$ 的叶结点：从根节点出发，递归的向下访问 $kd$ 树。若目标点 $x$ 的当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点，直到子结点为叶结点为止
以此叶结点为当前最近点
递归的向上回退，在每个结点进行以下操作：如果该结点保存的实例点比当前最近点距离目标更近，则以该实例点为当前最近点；当前的最近点一定存在于该结点一个子结点对应的区域，检查该子结点的父节点的另一个子结点对应的区域是否有更近的点，具体的，检查另一个子结点对应的区域是否与以目标点为球心，以目标点与当前最近点间的距离为半径的超球体相交，如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点，接着递归的进行最近邻搜索，如果不相交，向上回退，
当回退到根结点时，搜索结束，当前最近点即为 $x$ 的最近邻点

posted @ 2022-09-14 16:52 eryo 阅读(163) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 统计学习方法学习笔记-05-决策树

· 统计学习方法学习笔记-02-感知机

· 学习笔记-《统计学习方法》-第三章-k近邻

· 统计学习方法学习笔记第三章(k邻近算法）

· K近邻模型

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· .NET10 - 预览版1新功能体验（一）

公告

昵称： eryo
园龄： 5年11个月
粉丝： 0
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

统计学习方法学习笔记-03-k近邻法

k近邻算法

k近邻模型的三要素

距离度量

k值的选择

分类决策规则

k近邻法的实现：kd树

构造 $kd$ 树

搜索 $kd$ 树

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

统计学习方法学习笔记-03-k近邻法

k近邻算法

k近邻模型的三要素

距离度量

k值的选择

分类决策规则

k近邻法的实现：kd树

构造kdkdkd树

搜索kdkdkd树

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

构造 $kd$ 树

搜索 $kd$ 树