机器学习可行性分析

1、No free lunch

机器学习不是万能的，机器学习是通过学习样本D，推测样本D之外的其它的情况。如果样本D中存在任何未知的f，使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系，机器学习的方法无法保证学到类似f的关系g，所以不能使用机器学习。参考课件中的三个例子

英文描述：

learning from D (to infer something outside D) is doomed if any ‘unknown’ f can happen.

2、如何计算大罐子中橙色弹珠的比例？

这是一个概率统计的问题，通过计算样本的情况，估计总体的情况。

“大”罐子的弹珠的比例不好计算，通过随机抓取样本，计算样本的橙色弹珠的比例。

关于这种统计方法得出的样本结果v，总体的实际情况u，样本数量N，误差

3、罐子理论和机器学习时间的关系

机器学习与上述通过样本计算弹珠比例的十分相似。

对于给定的h，样本D中（N条记录）的错误率，样本之外的错误率，也存在霍夫不等式的关系：

也就是说

在实际机器学习中，面对多个h可以选择时，随着h的增加，出现错误的概率会增加。假设存在M个h：

所以，当假设空间有限时（M），如果给定样本空间N足够大，发生BAD sample的概率非常大。此时学习是有效的

当假设空间无限大时，下一节讨论。

当假设空间H有限，大小为M，样本空间N足够大时，总存在训练错误率。合适的机器学习算法A使得样本空间的训练错误率接近为零时，，使用样本空间的训练出的g估计样本空间的情况，此时的学习是有效的。

2.假设空间大小H：M

根据上面的公式，当M无限大时，机器学习是无效的

主要原因是计算M的时候使用UNION BOUND的方式，这样的上界太宽松了。实际上，由于不同的假设下发生坏是有很多重叠的，其实我们可以得到比M小得多的上界。

3.增长函数（Growth Function）：描述假设空间m与样本N的大小的关系

positive rays：

positive intervals:

convex sets:

2D perceptron: N>3

4.突破点（break point）：对于某假设空间H，如果m(k)<2^k,则K是它的突破点，最小的k，称为最小突破点

对于存在突破点的假设空间H，

5.vc bound

根据突破点得到了的多项式上界，希望对之前的不等式中的M进行替换。然而直接替换是存在问题的，具体的替换方法，严格的证明比较复杂，结果就是著名的vc 界（vc bound）

课件中最后给了一个例子，

，ε=0.1，N=10000，计算BAD events 的VC bound，得到0.298

posted @ 2016-03-16 21:08 wxquare 阅读(2025) 评论(0) 编辑收藏举报

刷新页面返回顶部

wxquare的学习笔记