机器学习基石(11)--Linear Models for Classification

先复习一下已经学过的三个模型:

和他们关于error的衡量:

三种error的关系:

加上VC理论:

如此就证明了regression是可以用来替代classification的。下面是几种方法的优缺点:

linear regression看起来是一个不错的方法,我们可以用它来设定PLA或者LR的w0(那个优化前的随机设定的值),这样可以让我们的优化过程更轻松。

LR比pocket更加的常用。

下面将要讲解LR怎样和pocket一样快。引入随机梯度下降。

我们目前在LR遇到的问题是计算量太大,我们得先把每一个点上的梯度计算一遍,然后取一个平均值,再去更新w。

新的思路是每次计算一个点,用这个点来替代总体的平均。

为什么可以这样呢?

当数据量很大的时候,随机抽取的样本量和总体样本量的分布是一样的。

SGD的LR和PLA的相似处:

当迭代次数足够大的时候,基本相信应该可以做到最好了;

η通常取0.1

说完了二元的分类,那么Multiclass的分类怎么做呢?两种方法:

1. One-versus-All

这种方法继续沿用二元分类的思路,把想要的一类和不是想要的一类做一个二元分类。

上图介绍了OVA的优缺点。

2. One-versus-One

OVO的方法是每次输入一个点,分类器们给这个点分别做一些投票,票数最多的就被确定为哪一类。

同样介绍了OVO的优缺点。

总结:

 

posted @ 2016-09-28 10:41  cyoutetsu  阅读(195)  评论(0编辑  收藏  举报