[机器学习][2]--霍夫丁不等式

[机器学习][2]--霍夫丁不等式

这一章是为了说明机器学习的可行性的。为了解决一个问题，即我们找到了一个符合要求的函数f，这个函数在测试数据中准确率为90%，那么是否有该函数f在整体中的正确率也有90%，或者说和90%相差不大。

我上面说的话很重要，下面就是为了解决上面的问题，一般文章都是那从罐子里取出小球做类比。

下面我放一篇参考文章机器学习的可能性。

我自己就来讲讲这个内容。

如上图，我们要估计罐子中绿色球所占的比例，但是我们不能把所有球都取出来，这时我们就想到了取样，然后看看取出的样本中绿色的球所占的比例。

那么我们要想得就是，样本要取多少呢。

不要担心，我们有霍夫丁不等式

v和u(不打那两个符号了，大家看得明白就可以了),v代表罐子中绿色球实际的比例,这个比例我们不知道，我们想要估计他,u是样本中绿色所占的比例。然后就由上面的不等式可以得到 u和v 的差大于一个我们所给误差的概率小于一个数(右边那个数),我们可以看到，是随着N的增大而减小，随着的减小而增大，也就是说，我们要使得误差越小，就要增加样本量。这样就能用样本中计算得到的绿球的比例取估计实际绿球的比例了。

在机器学习中也是一样的，我们为了估计我们得到的函数f的准确率，就看f在我们有的样本中的准确率，以此来估计f对于整个系统的正确率。

但是，有的时候，我们有好多个需要评价的函数，这个时候还能用上面的方法吗？

答案是不能的。

看上面一张图片，我们可以看到当备选情况增多是，会发生像最后一张图一样的情形。我们对我们抽到的样本进行比较，发现全是绿的(在机器学习中，也就是用f这个函数可以全部预测正确)，我们就认为他是最好的，但实际上，我们可以看罐子里还有其他颜色的球，绿的甚至还没有第二个罐子多，(也就是最后一个罐子还没有第二个罐子好，在机器学习中，也就是用f2这个函数比f这个函数好，但我们得到确实f比f2好)

显然这是不对的。

要是上面的还是不能理解，那我们在看一个例子。

1个人，掷五次硬币，五次都向上的概率为 1/32

100个人，掷五次硬币，只要有一个人五次都向上的概率为 0.95

上面，100人代表有100个备选的函数，掷五次硬币代表样本为5个，硬币向上代表函数预测正确，这100个硬币本是一样的，即是一样的函数，但是我们却可以从中找出满足条件的函数，即可以使得正确率为100%。

那么我们应该如何解决呢，很明显，我们应该增加样本数量，即增加掷硬币的次数

100个人，掷20次硬币，只要有一个人五次都向上的概率为 9.5*10（-5），也就是0.000095，这样发生的概率就小很多了。

也就是说，我们的备选函数越多，最后用来检验的样本量也应该越多。

到上面你能看懂的话，问题就基本解决了，一句话概括就是要增大样本量。

下面我们在看看用霍夫丁不等式来解决上面的问题。

上面的式子也是比较简单就得到了，就是放缩就可以了。

解释一下上面的 P[BAD D]: P[BAD D]就表示|u-v|>的概率

橙色的BAD D就表示我们最终找到的最优的那个函数，他应该是等于备选函数中的一个，所以有了第二个等式，接着就是拆开，变成大于号，就这再用，做进一步放大，最后就能得到最后一个式子了。

我们看一下最后一个等号后面的式子，有个M，M表示的就是备选函数的数量，可以看到M越大，容易出现

BAD D的可能性也就越大，这个时候我们就要增加样本数量N了。

到这里就大概把机器学习最后验证式子能成立的原因讲明白了，里面加了一些我自己的理解，大家可以多多交流，有不对的望指出，一定改正。

下面还是讲一下我自己做的一个小作品。

下面链接是自己做的一个小作品，是用来学习汉字结构的，我们将汉字的结构具体展现出来了，摆脱了以往汉字教学中的模糊概念，希望大家可以看看多提提意见。

汉字结构学习

以上，所有

2017/2/10

posted on 2017-02-10 11:27 WMN7Q 阅读(240) 评论(0) 编辑收藏举报

刷新页面返回顶部

WMN7Q

[机器学习][2]--霍夫丁不等式

导航

公告