统计学习方法笔记-感知机学习方法

感知机（Perceptron）

1.感知机模型

1.1感知机定义

输入空间 $X \subseteq R^{n}$ ，输出空间 $Y$ ={+1, -1} ;

输入 $x \in X$ 表示的实例的特征向量，对应于输入空间的点，输出 $y \in Y$ 表示的实例的类别；

由输入空间到输出空间的如下函数：

f(x) = sign( $ω \cdot x$ +b)

$ω$ : 权值，b : 偏置；

$ω \cdot x$ : $ω$ 和x的内积；

sign为符号函数;

1.2感知机几何解释

线性方程 $ω \cdot x + b = 0$ 对应于特征空间 $R^{n}$ 中的一个超平面S,其中ω是超平面的法向量，b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点分别被分为正负两类。因此，S成为分类超平面。

2.感知机学习策略

2.1数据集的线性可分性

给定一个数据集T，如果存在某个超平面S: $ω \cdot x + b = 0$ 能够将数据集的正实例点和负实例点完全正确的划分到超平面的两侧，即y_i $(ω \cdot x + b) \geq 0$ ，则称数据集T为线性可分数据集。

2.2 感知机的学习策略

首先，输入空间 $R$ ⁿ 中任一点x₀到超平面S的距离d： $\frac{1}{| | ω | |} | ω \cdot x_{0} + b |$

证明如下：

在超平面S( $ω \cdot x + b = 0$ )任选一点v₁，所需公式 $\vec{v_{0} v_{1}} = | | v_{0} | | | | v_{1} | | \cos θ$

d = $| | \vec{v_{0} v_{1}} | | \cos (\vec{v_{0} v_{1}}, ω)$

= $| | \vec{v_{0} v_{1}} | | \frac{| \vec{v_{0} v_{1}} \cdot ω |}{| | \vec{v_{0} v_{1}} | | | | ω | |}$

= $\frac{| (x_{1} - x_{0}) \cdot ω |}{| | ω | |}$

= $\frac{| - b - x_{0} \cdot ω |}{| | ω | |}$

= $\frac{1}{| | ω | |} | ω \cdot x_{0} + b |$

其次，对于误分类的数据（x_i，y_i）来说， $- y_{i} (ω \cdot x_{i} + b) > 0$ ，因此，误分类点x_i到超平面S的距离是 $- y_{i} \frac{1}{| | ω | |} | ω \cdot x_{i} + b |$ 。假设超平面S所有误分类点的集合为M，则所有误分类点的总距离为 $- \frac{1}{| | ω | |} \sum_{x_{i} \in M} y_{i} | ω \cdot x_{i} + b |$ 。因此可得出损失函数为 $L (ω, b) = - \sum_{x_{i} \in M} y_{i} (ω \cdot x_{i} + b)$

2.3 感知机算法

2.3.1原始形式(随机梯度下降法)

输入：训练数据集T = {(x₁, y₁), (x₂, y₂), ....., (x_N,y_N)},其中 $x_{i} \in X = R^{n}$ ， $y_{i} \in Y = + 1, - 1, i = 1, 2, . . ., N;$ 学习率 $θ (0 < θ \leq 1);$

输出： $ω$ ,b;感知机模型 $f (x) = s i g n (ω \cdot x + b) 。$

过程：

1.选取初值ω₀， b₀；

2.在训练集中选取数据（x_i, y_i）;

3.如果 $y_{i} (ω \cdot x_{i} + b) \leq 0$ ， $ω \leftarrow ω + θ y_{i} x_{i}$ ， $b \leftarrow b + θ y_{i}$ 。

4.转至2，直至训练集中没有误分类点。

注：感知机学习算法由于采取不同的初值或选取不同的误分类点，解可以不同。

2.3.2算法的收敛性

证明：经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

为了叙述与推导， $\hat{ω} = (ω^{T}, b)^{T}, \hat{x} = (x^{T}, 1)^{T}, \hat{ω} \cdot \hat{x} = ω \cdot x + b$ 。

训练数据集T = {(x₁, y₁), (x₂, y₂), ....., (x_N,y_N)},其中 $x_{i} \in X = R^{n}$ ， $y_{i} \in Y = + 1, - 1, i = 1, 2, . . ., N;$ 则

（１）存在满足条件 $| | {\hat{ω}}_{o p t} | | = 1$ 的超平面 ${\hat{ω}}_{o p t} \cdot \hat{x} = ω_{o p t} \cdot x + b_{o p t} = 0$ 　将训练数据集完全正确分开；且存在 $γ > 0$ , 对所有的i= 1,2,...,N， $y_{i} (\hat{ω} \cdot \hat{x}) = y_{i} (w_{o p t} \cdot x_{i} + b_{o p t}) \geq γ$ 。

　证明如下：

由于训练集是线性可分的，故存在一分离超平面。不妨设改平面为 $\hat{ω} \cdot \hat{x} = w_{o p t} \cdot x_{o p t} + b_{o p t} = 0$ ，使 $| | {\hat{ω}}_{o p t} | | = 1$ 。

于是对于所有有限的i，均有 $y_{i} (w_{o p t} \cdot x_{i} + b_{o p t}) > 0$ 。

取 $γ > 0$ ,则 $γ = m i n_{i} (y_{i} (ω_{o p t} \cdot x_{i} + b_{o p t}))$ 。

所以，（1）得证。

（2）令 $R = m a x_{1 \leq i \leq N} | | \hat{x} | |$ ,则在 $f (x) = s i g n (ω \cdot x + b)$ 在训练数据集上的误分类次数k满足不等式 $k \leq {(\frac{R}{γ})}^{2}$

证明： ${\hat{ω}}_{k} \cdot {\hat{ω}}_{o p t} \geq k γ η$ ， ${\hat{w}}_{k}$ 是第k个误分类点实例的扩充权重向量。

${\hat{ω}}_{k} \cdot {\hat{ω}}_{o p t} = ({\hat{ω}}_{k - 1} + η y_{i} {\hat{x}}_{i}) {\hat{ω}}_{o p t} \geq {\hat{ω}}_{k - 1} \cdot {\hat{ω}}_{o p t} + η γ = ({\hat{ω}}_{k - 2} + η y_{i} {\hat{x}}_{i}) {\hat{ω}}_{o p t} \geq {\hat{ω}}_{k - 2} \cdot {\hat{ω}}_{o p t} + η γ \geq . . . \geq k η γ$

证明： $| | {\hat{ω}}_{k} | |^{2} \leq k η^{2} R^{2}$

$| | {\hat{ω}}_{k} | |^{2} = | | {\hat{ω}}_{k} | |^{2} + 2 η y_{i} {\hat{ω}}_{k - 1} \cdot {\hat{x}}_{i} + η^{2} | | {\hat{x}}_{i} | | \leq | | {\hat{ω}}_{k - 1} | |^{2} + η^{2} | | {\hat{x}}_{i} | | \leq | | {\hat{ω}}_{k - 1} | |^{2} + η^{2} R^{2} \leq | | {\hat{ω}}_{k - 1} | |^{2} + 2 η^{2} R^{2} \leq . . . \leq k η^{2} R^{2}$

由上述可得， $k η γ \leq {\hat{ω}}_{k} \cdot {\hat{ω}}_{o p t} \leq | | {\hat{ω}}_{k} | | | | {\hat{ω}}_{o p t} | | \leq \sqrt{k} η R \to k^{2} γ^{2} \leq k R^{2} \to k \leq (\frac{R}{γ})^{2}$

定理表明，误分类次数k是有上界的，经过有限次搜索可以找到分离超平面。即当训练数据集线性可分时，感知机学习算法原始形式迭代时收敛的。

2.3.3 对偶形式

输入：训练数据集T = {(x₁, y₁), (x₂, y₂), ....., (x_N,y_N)},其中 $x_{i} \in R^{n}$ ， $y_{i} \in + 1, - 1, i = 1, 2, . . ., N;$ 学习率 $η (0 < η \leq 1);$

输出： $α$ ,b;感知机模型 $f (x) = s i g n (\sum_{j = 1}^{N} α_{j} y_{j} x_{j} \cdot x + b) 。$

过程：

1. $α \leftarrow 0, b \leftarrow 0$ ；

2.在训练集中选取数据（x_i, y_i）;

3.如果 $y_{i} (\sum_{j = 1}^{N} α_{j} y_{j} x_{j} \cdot x_{i} + b) \leq 0$ ， $α_{i} \leftarrow α_{i} + η$ ， $b \leftarrow b + η y_{i}$ 。

4.转至2，直至训练集中没有误分类数据。

注：Gram矩阵：训练集中实例间的内积计算并以矩阵形式存储，该矩阵为Gram矩阵，记为 $G = [x_{i} \cdot x_{j}]_{N * N}$ 。

posted @ 2023-05-16 15:09 纸忽者耶阅读(66) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 双指针算法

· 王道_顺序表课后代码习题总结

· 统计学习方法学习笔记-02-感知机

· 《统计学习方法》学习笔记——感知机

· 学习笔记-《统计学习方法》-第二章-感知机

阅读排行：
· [翻译] 为什么 Tracebit 用 C# 开发
· 腾讯ima接入deepseek-r1，借用别人脑子用用成真了~
· Deepseek官网太卡，教你白嫖阿里云的Deepseek-R1满血版
· DeepSeek崛起：程序员“饭碗”被抢，还是职业进化新起点？
· 深度对比：PostgreSQL 和 SQL Server 在统计信息维护中的关键差异

公告

昵称：纸忽者耶
园龄： 2年10个月
粉丝： 0
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

sinowind