机器学习基石(4)--Feasibility of Learning

第一讲主要讲述了机器学习好像对已输入的data以外的数据没有什么办法进行学习。

通过从罐子里取弹珠的例子来引出霍夫丁不等式。

如果样本足够大的时候,sample中的比例就是population中的比例。

下图指明了霍夫丁不等式对于机器学习有什么意义:

输入的数据就相当于随机在罐子里抓的一把弹珠,也就是sample;整个罐子就是population;我们通过机器学习,学习到了sample内的各种规律,根据霍夫丁不等式,在sample内学习到的规律同样也可以应用到整个population当中去。

更新Flow:

引入Ein(样本内误差)和Eout(样本外/总体误差):

根据霍夫丁不等式,Ein和Eout应该是差不多的。也就是说在机器学习中,我们只需要最小化Ein就可以了,Eout也会随着Ein的变小而变小。(样本要足够大)

如果出现了一个BAD sample:就是抽样的结果和总体样本的真实的样子完全不同,他们相差很大。而且,当这个BAD sample又会被其中一个备选的hypothesis看中时,得出的Ein就会很小,而原本这个备选的hypothesis并不是我们想要的那个最佳的g,它只是因为BAD sample的原因误打误撞成为了最好的hypothesis,这种结果一定不是我们希望看到的。

BAD的资料虽然很小,但是还是会有如下的缺点:

但是霍夫丁不等式又告诉我们说这个BAD的资料其实出现的概率很小:

根据上面的数学推导,坏事情发生的概率和M(hypothesis的数量)是正相关的。

如果备选的hypothesis是有限的,样本量是足够大的时候,机器学习是可行的。

如果备选的hypothesis是无限的,会在之后的章节中做详细解释。

总结:

posted @ 2016-09-27 10:10  cyoutetsu  阅读(557)  评论(0编辑  收藏  举报