主要讲解内容来自机器学习基石课程。主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性。
PAC : probably approximately correct
一方面:根据PAC,针对一个h,Ein与Eout的差距很大的概率是很小的
另一方面:不能说直接选定一个h,需要从许多h中选择一个Ein较小的,可能出现某一些坏数据在某些h上的表现很差,但是坏数据在所有h上表现都差的概率很小。
1. Hoeffding 不等式
用频率代替概率,如果抽样的数目很大的话,频率和概率的差别不会很大。也就是 (频率 PAC 概率)
2.Connection to Meachine Learning
描述了Ein PAC Eout,所以h在资料上的表现就可以用来估计h在所有资料上的表现。
所以,我们的学习问题就变为:
Hoeffding形式:
上述由Hoeffding不等式说明了N很大的时候,用Ein和Eout是差不多大概是一样的。但是上述说明的是某一个特定的h,这时候的Ein可能是很大的,Ein和Eout很接近,但是g和f差别很大。所以需要验证某个g好不好。
3. h可以自由选择
那么接下来就论述假如有很多h呢?
Hoeffding说明了对一个资料,不好的资料(Ein 和 Eout差别很大)很少。在演算法不能自由选择,可能会踩到雷。
所以,现在如果让演算法可以自由选择,那么:
所以,对于有限的假设,如果演算法可以自由选择,资料量大,这样一定可以选择到一个g,使得Ein和Eout是接近的。所以,选择Ein最小的是有道理的。
好了,现在证明了有有限个h的时候,如果演算法可以找到一个小的Ein的时候,演算法还是可行的,那么如果有无限个h呢?
接下来继续讨论。http://www.cnblogs.com/futurehau/p/6246784.html