机器学习基石(11)--Linear Models for Classification
先复习一下已经学过的三个模型:
和他们关于error的衡量:
三种error的关系:
加上VC理论:
如此就证明了regression是可以用来替代classification的。下面是几种方法的优缺点:
linear regression看起来是一个不错的方法,我们可以用它来设定PLA或者LR的w0(那个优化前的随机设定的值),这样可以让我们的优化过程更轻松。
LR比pocket更加的常用。
下面将要讲解LR怎样和pocket一样快。引入随机梯度下降。
我们目前在LR遇到的问题是计算量太大,我们得先把每一个点上的梯度计算一遍,然后取一个平均值,再去更新w。
新的思路是每次计算一个点,用这个点来替代总体的平均。
为什么可以这样呢?
当数据量很大的时候,随机抽取的样本量和总体样本量的分布是一样的。
SGD的LR和PLA的相似处:
当迭代次数足够大的时候,基本相信应该可以做到最好了;
η通常取0.1
说完了二元的分类,那么Multiclass的分类怎么做呢?两种方法:
1. One-versus-All
这种方法继续沿用二元分类的思路,把想要的一类和不是想要的一类做一个二元分类。
上图介绍了OVA的优缺点。
2. One-versus-One
OVO的方法是每次输入一个点,分类器们给这个点分别做一些投票,票数最多的就被确定为哪一类。
同样介绍了OVO的优缺点。
总结: