《统计学习方法》笔记第二章 —— 感知机

主要内容：

一、感知机模型

二、感知机学习策略（线性可分）

三、感知机学习算法

（疑问：对偶形式比原始形式更优吗？但为何从”判断误分类点“这一步骤对比，对偶形式的时间复杂度似乎更高呢？）

一、感知机模型

1.所谓感知机，其实就是一个在n维空间内的超平面(n-1维)，这个超平面将整个空间分为两部分。

2.该超平面S被定义为：w*x + b = 0。其中，w*x + b >= 0 的那部分空间被定义为正，w*x + b < 0 的那部分空间被定义为负，即：

3.超平面S又称为分离超平面，如下图：

二、感知机学习策略（线性可分）

1. 对于一个线性可分的训练集，我们能够找到（至少）一个分离超平面，该超平面能把训练集的正、负实例点完全地分离开。为了找到该平面，需要确定一个学习策略，即定义经验损失函数。

2.感知机采用的损失函数是：误分类点到超平面的距离，即：。而又因为其是误分类点，yi与w*xi+b异号，即，所以误分类点到超平面的距离又为：。

3. 若超平面S的误分类点集合为M，则所有误分类点到超平面的总距离为：，如果如考虑1/||w||（对损失函数乘上一个非0常数并不会影响极值点的取值），那么就得到感知机的损失函数：

三、感知机学习算法

1. 感知机学习算法的原始形式：该算法使用的是梯度下降，但在极小化的过程中并非一次使得M中的误分类点的梯度下降，而是一次随机选取一个误分类点进行梯度下降。

2. 算法的收敛性：在训练集线性可分的时候，感知机学习算法的原始形式会收敛，而不可能一直迭代下去。即经过有限次迭代，可以得到一个将训练集完全正确划分的分离超平面及感知机模型。且有以下定理：

3.感知机学习算法的对偶性形式：

posted on 2018-12-07 21:14 h_z_cong 阅读(332) 评论(0) 编辑收藏举报

刷新页面返回顶部