Hoeffding inequality

Hoeffding公式为

$\mathbb{P}[|\nu-\mu|>\epsilon]\leq{2e^{-2\epsilon^2N}}$

如果把Training error和Test error分别看成 $\nu=E_{in}$ 和 $\mu=E_{out}$ 的话，Hoeffding告诉我们，取样出来的v和总的u大部分是比较接近的，很小的概率是差很远的，即Ein和Eout差很远，这种情况称为Bad sample. 本来只有一个coin，丢5次，5次head的概率就是1/32。现在有150个coin，可以选择出现5次的那个coin，这时概率会大大增加，变成了1-(31/32)^150 = 99%。现在的问题是，Algorithm要从H set中选择一个h，而不是force to pick this h。要做到给不同的data，通过A可以得到不同的h，即不同的分界线。但是现在如果只有一个h，则不是learning的过程。但是可以去verify这个h好不好，就看这个h的Ein(h)小不小了。如果现在有multiple h，对应前面多个coin，其中有一个h在sample上全对，即这个coin5次都是head，说明这个h就很好吗？NO!!其实对于150个硬币，都是一样的，不存在好与坏。出现5次head也只是概率问题。假设我们选择了这块出现5次head的硬币，如果继续往下投，搞不好就不会出现这么多次head了。对应到h上，如果选择一个在sample上表现很好的h，即Ein(h)很小，但是把这个h放到out-of-sample里去，可能表现就会很差了(overfitting)。我们可能有很多组的training set，这些training set在一个特定的h上表现不一，有的很好，有的则一般，但是这个h在out-of-sample上的表现，有可能和它在in-sample上的表现接近，也可能差很远。如果Ein和Eout差很多的话，可能是Ein很小，但是Eout很大，则这组产生这样的Ein的training set是一个Bad sample. Hoeffding保证的是这种情况的概率很小。 $\mathbb{P}[BAD\ \mathcal{D}]=\sum_{all\ possible \mathcal{D}}\mathbb{P}(\mathcal{D})[BAD\ \mathcal{D}]$

现在假设Hset里有M个h。各种数据集在h上的表现如下

D1在h1上产生很小的Ein，但是h1的Eout很大，则D1对于h1来所就是Bad data. 然而D1126就不是一个Bad data，对于Hset里面的任意一个h，Ein(h)都接近Eout(h)。对于一个Bad data，它使得Ein far away from Eout的概率是： NewImage

但是我们还是可以在不知道Eout(h)，同时也不知道f以及D的分布P的情况下，找到概率的upper bound，这个概率比较小，即Ein(g)=Eout(g) is PAC。（g就是由Algorithm选择产生Ein最小的那个h）。结论

posted on 2015-07-16 22:15 CaseyZ 阅读(648) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Casey