机器学习基石(8)--Noise and Error

本节课主要讲述当输入的data中含有噪声的时候,会不会对整个机器学习过程产生影响。

还是以从罐子里取弹珠为例:

如果我们将即将要取出来的弹珠动态概率化,弹珠的颜色是有一定概率变来变去的,也就是说在某一时刻,我们只知道取出来的弹珠有百分之多少的概率是某一种颜色,而不是直接确定地知道即将取出来的弹珠是什么颜色。即便是这样,我们也可以同样的估计在同一时间,总体样本的概率。这种会变色的弹珠就是probabilistic noisy sample。

在这种随机的情况下,VC就可以被重写为:

所以得出结论,噪声对每一个点的影响可以应用于全局,实际上也并没有产生特殊的影响。

所以机器学习的目标就成了:

更新Flow:

我们通常希望得出的g要和实际的f相差很小,在实际应用方面,我们就希望Ein和Eout之间的差别能够越小越好。在使用Eout的时候:

先考虑每一个点(x)上的错误,再把这些错误加起来平均一下就是总体样本的错误:

在二元分类的问题上,通常会用0/1错误来衡量;

在回归的问题上,通常用平方错误来(squared error)衡量。

错误衡量的方式会影响到最好的hypothesis的样子。那么错误该怎么衡量呢?

以一个指纹分类器为例,举例说明两种不同的错误衡量方法的应用:

所以,根据实际使用的情况不同,我们进行错误衡量的方式也应该灵活一点。错误衡量也是构建模型的一个非常重要的部分。而在实际应用中,设计和选择合适的错误衡量的方式也是很难的。但是我们可以用一些替代的方式,例如0/1 error和平方错误的衡量方式。

更新Flow:

当模型犯错误的时候,付出的代价有时候是不同的,此时,我们就有必要给每一类的错误加权,所以,我们的目标就是算出加权后的Ein最小。

以PLA为例,加权后的Ein衡量方式更换为:

总结:

posted @ 2016-09-27 15:44  cyoutetsu  阅读(392)  评论(0编辑  收藏  举报