[机器学习][2]--霍夫丁不等式
[机器学习][2]--霍夫丁不等式
这一章是为了说明机器学习的可行性的。为了解决一个问题,即我们找到了一个符合要求的函数f,这个函数在测试数据中准确率为90%,那么是否有该函数f在整体中的正确率也有90%,或者说和90%相差不大。
我上面说的话很重要,下面就是为了解决上面的问题,一般文章都是那从罐子里取出小球做类比。
下面我放一篇参考文章机器学习的可能性。
我自己就来讲讲这个内容。
如上图,我们要估计罐子中绿色球所占的比例,但是我们不能把所有球都取出来,这时我们就想到了取样,然后看看取出的样本中绿色的球所占的比例。
那么我们要想得就是,样本要取多少呢。
不要担心,我们有霍夫丁不等式
v和u(不打那两个符号了,大家看得明白就可以了),v代表罐子中绿色球实际的比例,这个比例我们不知道,我们想要估计他,u是样本中绿色所占的比例。然后就由上面的不等式可以得到 u和v 的差大于一个我们所给误差的概率小于一个数(右边那个数),我们可以看到,是随着N的增大而减小,随着的减小而增大,也就是说,我们要使得误差越小,就要增加样本量。这样就能用样本中计算得到的绿球的比例取估计实际绿球的比例了。
在机器学习中也是一样的,我们为了估计我们得到的函数f的准确率,就看f在我们有的样本中的准确率,以此来估计f对于整个系统的正确率。
但是,有的时候,我们有好多个需要评价的函数,这个时候还能用上面的方法吗?
答案是不能的。
看上面一张图片,我们可以看到当备选情况增多是,会发生像最后一张图一样的情形。我们对我们抽到的样本进行比较,发现全是绿的(在机器学习中,也就是用f这个函数可以全部预测正确),我们就认为他是最好的,但实际上,我们可以看罐子里还有其他颜色的球,绿的甚至还没有第二个罐子多,(也就是最后一个罐子还没有第二个罐子好,在机器学习中,也就是用f2这个函数比f这个函数好,但我们得到确实f比f2好)
显然这是不对的。
要是上面的还是不能理解,那我们在看一个例子。
1个人,掷五次硬币,五次都向上的概率为 1/32
100个人,掷五次硬币,只要有一个人五次都向上的概率为 0.95
上面,100人代表有100个备选的函数,掷五次硬币代表样本为5个,硬币向上代表函数预测正确,这100个硬币本是一样的,即是一样的函数,但是我们却可以从中找出满足条件的函数,即可以使得正确率为100%。
那么我们应该如何解决呢,很明显,我们应该增加样本数量,即增加掷硬币的次数
100个人,掷20次硬币,只要有一个人五次都向上的概率为 9.5*10(-5),也就是0.000095,这样发生的概率就小很多了。
也就是说,我们的备选函数越多,最后用来检验的样本量也应该越多。
到上面你能看懂的话,问题就基本解决了,一句话概括就是要增大样本量。
下面我们在看看用霍夫丁不等式来解决上面的问题。
上面的式子也是比较简单就得到了,就是放缩就可以了。
解释一下上面的 P[BAD D]: P[BAD D]就表示|u-v|>的概率
橙色的BAD
D就表示我们最终找到的最优的那个函数,他应该是等于备选函数中的一个,所以有了第二个等式,接着就是拆开,变成大于号,就这再用,做进一步放大,最后就能得到最后一个式子了。
我们看一下最后一个等号后面的式子,有个M,M表示的就是备选函数的数量,可以看到M越大,容易出现
BAD
D的可能性也就越大,这个时候我们就要增加样本数量N了。
到这里就大概把机器学习最后验证式子能成立的原因讲明白了,里面加了一些我自己的理解,大家可以多多交流,有不对的望指出,一定改正。
下面还是讲一下我自己做的一个小作品。
下面链接是自己做的一个小作品,是用来学习汉字结构的,我们将汉字的结构具体展现出来了,摆脱了以往汉字教学中的模糊概念,希望大家可以看看多提提意见。
以上,所有
2017/2/10