机器学习可行性分析

机器学习可行性分析(1)

1No free lunch

机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子

英文描述:

learning from D (to infer something outside D) is doomed if any ‘unknown’ f can happen.

2、如何计算大罐子中橙色弹珠的比例?

这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。

“大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。

关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差clip_image002

搜狗截图20160316210951

3、罐子理论和机器学习时间的关系

机器学习与上述通过样本计算弹珠比例的十分相似。

对于给定的h,样本D中(N条记录)的错误率clip_image006 ,样本之外的错误率 clip_image008,也存在霍夫不等式的关系:

搜狗截图20160316211052

也就是说搜狗截图20160316211126

在实际机器学习中,面对多个h可以选择时,随着h的增加,出现错误的概率会增加。假设存在M个h:

搜狗截图20160316211203
所以,当假设空间有限时(M),如果给定样本空间N足够大,发生BAD sample的概率非常大。此时学习是有效的

当假设空间无限大时,下一节讨论。

机器学习可行性研究(2)

1.回顾重要公式

搜狗截图20160316211203

当假设空间H有限,大小为M,样本空间N足够大时,总存在训练错误率clip_image020。合适的机器学习算法A使得样本空间的训练错误率接近为零时,clip_image022 ,使用样本空间的训练出的g估计样本空间的情况,此时的学习是有效的。

2.假设空间大小HM

根据上面的公式,当M无限大时,机器学习是无效的

主要原因是计算M的时候使用UNION BOUND的方式,这样的上界太宽松了。实际上,由于不同的假设下发生坏是有很多重叠的,其实我们可以得到比M小得多的上界。

3.增长函数(Growth Function:描述假设空间m与样本N的大小的关系

positive rays: clip_image024

positive intervals: clip_image026

convex sets: clip_image028

2D perceptron: clip_image030  N>3

4.突破点(break point:对于某假设空间H,如果m(k)<2^k,则K是它的突破点,最小的k,称为最小突破点

对于存在突破点的假设空间H,clip_image032

5.vc bound

根据突破点得到了clip_image034 的多项式上界,希望对之前的不等式中的M进行替换。然而直接替换是存在问题的,具体的替换方法,严格的证明比较复杂,结果就是著名的vc 界(vc bound)

搜狗截图20160316211342

课件中最后给了一个例子,

clip_image024[1] ,ε=0.1,N=10000,计算BAD events 的VC bound,得到0.298

posted @ 2016-03-16 21:08  wxquare  阅读(2025)  评论(0编辑  收藏  举报