机器学习基石(8)--Noise and Error

本节课主要讲述当输入的data中含有噪声的时候，会不会对整个机器学习过程产生影响。

还是以从罐子里取弹珠为例：

如果我们将即将要取出来的弹珠动态概率化，弹珠的颜色是有一定概率变来变去的，也就是说在某一时刻，我们只知道取出来的弹珠有百分之多少的概率是某一种颜色，而不是直接确定地知道即将取出来的弹珠是什么颜色。即便是这样，我们也可以同样的估计在同一时间，总体样本的概率。这种会变色的弹珠就是probabilistic noisy sample。

在这种随机的情况下，VC就可以被重写为：

所以得出结论，噪声对每一个点的影响可以应用于全局，实际上也并没有产生特殊的影响。

所以机器学习的目标就成了：

更新Flow：

我们通常希望得出的g要和实际的f相差很小，在实际应用方面，我们就希望Ein和Eout之间的差别能够越小越好。在使用Eout的时候：

先考虑每一个点(x)上的错误，再把这些错误加起来平均一下就是总体样本的错误：

在二元分类的问题上，通常会用0/1错误来衡量；

在回归的问题上，通常用平方错误来(squared error)衡量。

错误衡量的方式会影响到最好的hypothesis的样子。那么错误该怎么衡量呢？

以一个指纹分类器为例，举例说明两种不同的错误衡量方法的应用：

所以，根据实际使用的情况不同，我们进行错误衡量的方式也应该灵活一点。错误衡量也是构建模型的一个非常重要的部分。而在实际应用中，设计和选择合适的错误衡量的方式也是很难的。但是我们可以用一些替代的方式，例如0/1 error和平方错误的衡量方式。

更新Flow：

当模型犯错误的时候，付出的代价有时候是不同的，此时，我们就有必要给每一类的错误加权，所以，我们的目标就是算出加权后的E_in最小。

以PLA为例，加权后的Ein衡量方式更换为：

总结：

posted @ 2016-09-27 15:44 cyoutetsu 阅读(392) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部