1. 感知机原理（Perceptron）

这样取y的值有一个好处，就是方便定义损失函数。因为正确分类的样本满足 $\frac{y_i(w\cdot {x_i}+b)}{||w||}>0$ ，而错误分类的样本满足 $\frac{y_i(w\cdot {x_i}+b)}{||w||}<0$ 。我们损失函数的优化目标，就是期望使误分类的所有样本，到超平面的距离之和最小。

所以损失函数定义如下：

L (w, b) = - \frac{1}{| | w | |} \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$L(w,b)=-\frac{1}{||w||}\sum_{x_i\in{M}}y_i(w\cdot {x_i}+b)$

其中M集合是误分类点的集合。

不考虑 $\frac{1}{||w||}$ ，就得到感知机模型的损失函数：

L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$L(w,b)=-\sum_{x_i\in{M}}y_i(w\cdot {x_i}+b)$

3.2 为什么可以不考虑 $\frac{1}{||w||}$

网上有人说 $\frac{1}{||w||}$ 是个定值，但是个人觉得平面不唯一，这个值肯定也会变。通过参考他人观点结合思考，觉得原因可以列为以下两点。

$\frac{1}{||w||}$ 不影响 $y_i(w\cdot {x_i}+b)$ 正负的判断，即不影响学习算法的中间过程。因为感知机学习算法是误分类驱动的，这里需要注意的是所谓的“误分类驱动”指的是我们只需要判断 $-y_i(w\cdot{x_i}+b)$ 的正负来判断分类的正确与否，而 $\frac{1}{||w||}$ 并不影响正负值的判断。所以 $\frac{1}{||w||}$ 对感知机学习算法的中间过程可以不考虑。
$\frac{1}{||w||}$ 不影响感知机学习算法的最终结果。因为感知机学习算法最终的终止条件是所有的输入都被正确分类，即不存在误分类的点。则此时损失函数为0. 对应于 $-\frac{1}{||w||}\sum_{i\in{M}}y_i(w\cdot {x_i}+b)$ ，即分子为0.则可以看出 $\frac{1}{||w||}$ 对最终结果也无影响。

综上所述，即使忽略 $\frac{1}{||w||}$ ，也不会对感知机学习算法的执行过程产生任何影响。反而还能简化运算，提高算法执行效率。

回到顶部

4. 感知机学习算法

感知机学习算法是对上述损失函数进行极小化，求得 $w$ 和 $b$ 。但是用普通的基于所有样本的梯度和的均值的批量梯度下降法（BGD）是行不通的，原因在于我们的损失函数里面有限定，只有误分类的M集合里面的样本才能参与损失函数的优化。所以我们不能用最普通的批量梯度下降,只能采用随机梯度下降（SGD）。目标函数如下：

L (w, b) = a r g min_{w, b} (- \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b))

$L(w,b)=arg\min_{w,b}(-\sum\limits_{{{x}_{i}}\in{M}}{{{y}_{i}}(w\cdot {{x}_{i}}+b)})$

4.1 原始形式算法

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ ， $y_i\in{\{-1,+1\}}$ ，学习率 $\eta(0<\eta<1)$

输出： $w,b$ ；感知机模型 $f(x)=sign(w\cdot {x}+b)$

赋初值 $w_0,b_0$
选取数据点 $(x_i,y_i)$
判断该数据点是否为当前模型的误分类点，即判断若 $y_i(w\cdot {x_i}+b)<=0$ 则更新

w = w + η y_{i} x_{i}

$w={w+\eta{y_ix_i}}$

b = b + η y_{i}

$b={b+\eta{y_i}}$

转到2，直到训练集中没有误分类点

4.2 对偶形式算法

由于 $w,b$ 的梯度更新公式：

w = w + η y_{i} x_{i}

$w={w+\eta{y_ix_i}}$

b = b + η y_{i}

$b={b+\eta{y_i}}$

我们的 $w,b$ 经过了 $n$ 次修改后的，参数可以变化为下公式，其中 $\alpha = ny$ ：

w = \sum_{x_{i} \in M} η y_{i} x_{i} = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}

$w=\sum_{x_i\in{M}}\eta{y_ix_i}=\sum_{i=1}^n\alpha_iy_ix_i$

b = \sum_{x_{i} \in M} η y_{i} = \sum_{i = 1}^{n} α_{i} y_{i}

$b=\sum_{x_i\in{M}}\eta{y_i}=\sum_{i=1}^n\alpha_iy_i$

这样我们就得出了感知机的对偶算法。

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ ， $y_i\in{\{-1,+1\}}$ ，学习率 $\eta(0<\eta<1)$

输出： $\alpha,b$ ；感知机模型 $f(x)=sign(\sum_{j=1}^n\alpha_jy_jx_j\cdot {x}+b)$

其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_n)^T$

赋初值 $\alpha_0,b_0$
选取数据点 $(x_i,y_i)$
判断该数据点是否为当前模型的误分类点，即判断若 $y_i(\sum_{j=1}^n\alpha_jy_jx_j\cdot {x_i}+b)<=0$ 则更新

α_{i} = α_{i} + η

$\alpha_i={\alpha_i+\eta}$

b = b + η y_{i}

$b={b+\eta{y_i}}$

转到2，直到训练集中没有误分类点

为了减少计算量，我们可以预先计算式中的内积，得到Gram矩阵

G = [x_{i}, x_{j}]_{N \times N}

$G=[x_i,x_j]_{N×N}$

4.3 原始形式和对偶形式的选择

在向量维数（特征数）过高时，计算内积非常耗时，应选择对偶形式算法加速。
在向量个数（样本数）过多时，每次计算累计和就没有必要，应选择原始算法

回到顶部

5. 训练过程

我们大概从下图看下感知机的训练过程。

线性可分的过程：

线性不可分的过程：

回到顶部

6. 小结

感知机算法是一个简单易懂的算法，自己编程实现也不太难。前面提到它是很多算法的鼻祖，比如支持向量机算法，神经网络与深度学习。因此虽然它现在已经不是一个在实践中广泛运用的算法，还是值得好好的去研究一下。感知机算法对偶形式为什么在实际运用中比原始形式快，也值得好好去体会。

posted @ 2018-09-26 14:09 hyc339408769 阅读(61676) 评论(6) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· winform 绘制太阳，地球，月球运作规律
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

人工智站

1. 感知机原理（Perceptron）

0. 目录

1. 感知机原理（Perceptron）

2. 感知机(Perceptron)基本形式和对偶形式实现

3. 支持向量机（SVM）拉格朗日对偶性（KKT）

4. 支持向量机（SVM）原理

5. 支持向量机（SVM）软间隔

6. 支持向量机（SVM）核函数

1. 前言

2. 感知机的原理

2.1 点到线的距离

2.2 样本到超平面距离

2.2 超平面（Hyperplanes）

3. 感知机模型

3.1 感知机的损失函数

3.2 为什么可以不考虑 $\frac{1}{||w||}$

4. 感知机学习算法

4.1 原始形式算法

4.2 对偶形式算法

4.3 原始形式和对偶形式的选择

5. 训练过程

6. 小结

公告

常用链接

积分与排名

随笔分类 (129)

阅读排行榜

推荐排行榜

最新评论

0. 目录

1. 前言

2. 感知机的原理

2.1 点到线的距离

2.2 样本到超平面距离

2.2 超平面（Hyperplanes）

3. 感知机模型

3.1 感知机的损失函数

3.2 为什么可以不考虑1||w||1||w||\frac{1}{||w||}

4. 感知机学习算法

4.1 原始形式算法

4.2 对偶形式算法

4.3 原始形式和对偶形式的选择

5. 训练过程

6. 小结

公告

常用链接

积分与排名

随笔分类 (129)

3.2 为什么可以不考虑 $\frac{1}{||w||}$