《机器学习基石》第5节课学习笔记

第5节课 Training versus Testing

本节课我更加深入的学习了机器学习的可行性。可以机器学习拆分为两个核心问题：Ein(g)≈Eout(g)和Ein(g)≈0。针对这两个问题展开了探讨，主要针对批量的二元分类问题。后面对成长函数和突破点的介绍没有看懂，还需要进一步理解。

1.上节课机器学习可行性的回顾

（1）一个重要公式：

（2）机器学习流程图：

该流程图中，训练样本D和最终测试h的样本都是来自同一个数据分布，这是机器能够学习的前提。另外，训练样本D应该足够大，且hypothesis set的个数是有限的，这样根据霍夫丁不等式，才不会出现Bad Data，保证Ein≈Eout，即有很好的泛化能力。同时，通过训练，得到使Ein最小的h，作为模型最终的矩g，g接近于目标函数。

2. 我们把机器学习的主要目标分成两个核心的问题：

机器学习可行的一个条件是hypothesis set的个数M是有限的，那M跟上面这两个核心问题有什么联系呢？

首先，当M很小的时候，上节课介绍的霍夫丁不等式，得到Ein(g)≈Eout(g)，即能保证第一个核心问题成立。但M很小时，演算法A可以选择的hypothesis有限，不一定能找到使Ein(g)足够小的hypothesis，即不能保证第二个核心问题成立。当M很大的时候，同样由霍夫丁不等式，Ein(g)与Eout(g)的差距可能比较大，第一个核心问题可能不成立。而M很大，使的演算法A的可以选择的hypothesis就很多，很有可能找到一个hypothesis，使Ein(g)足够小，第二个核心问题可能成立。

M的选择直接影响机器学习的两个核心问题是否满足，不能太大也不能太小。

3.具体的探讨（涉及到霍夫丁不等式，这块比较重要）

（1）霍夫丁不等式：

其中，M表示hypothesis的个数。每个hypothesis下的BAD events

Bm级联的形式满足下列不等式：

当M=∞时，上面不等式右边值将会很大，似乎说明BAD events很大，Ein(g)与Eout(g)也并不接近。但是BAD events Bm级联的形式实际上是扩大了上界，union bound过大。这种做法假设各个hypothesis之间没有交集，这是最坏的情况，可是实际上往往不是如此，很多情况下，都是有交集的，也就是说M实际上没那么大，如下图所示：