《统计学习方法》笔记第二章 —— 感知机

 

主要内容:

一、感知机模型

二、感知机学习策略(线性可分)

三、感知机学习算法

(疑问:对偶形式比原始形式更优吗?但为何从”判断误分类点“这一步骤对比,对偶形式的时间复杂度似乎更高呢?)

 

一、感知机模型

1.所谓感知机,其实就是一个在n维空间内的超平面(n-1维),这个超平面将整个空间分为两部分。

2.该超平面S被定义为:w*x + b = 0。其中,w*x + b >= 0 的那部分空间被定义为正,w*x + b < 0 的那部分空间被定义为负,即:

3.超平面S又称为分离超平面,如下图:

 

 

二、感知机学习策略(线性可分)

1. 对于一个线性可分的训练集,我们能够找到(至少)一个分离超平面,该超平面能把训练集的正、负实例点完全地分离开。为了找到该平面,需要确定一个学习策略,即定义经验损失函数。

2.感知机采用的损失函数是:误分类点到超平面的距离,即:。而又因为其是误分类点,yi与w*xi+b异号,即,所以误分类点到超平面的距离又为:

3. 若超平面S的误分类点集合为M,则所有误分类点到超平面的总距离为:,如果如考虑1/||w||(对损失函数乘上一个非0常数并不会影响极值点的取值),那么就得到感知机的损失函数:

 

三、感知机学习算法

1. 感知机学习算法的原始形式:该算法使用的是梯度下降,但在极小化的过程中并非一次使得M中的误分类点的梯度下降,而是一次随机选取一个误分类点进行梯度下降。

 

 

2. 算法的收敛性:在训练集线性可分的时候,感知机学习算法的原始形式会收敛,而不可能一直迭代下去。即经过有限次迭代,可以得到一个将训练集完全正确划分的分离超平面及感知机模型。且有以下定理:

 

3.感知机学习算法的对偶性形式:

 

 

 

posted on 2018-12-07 21:14  h_z_cong  阅读(331)  评论(0编辑  收藏  举报

导航