台大林轩田老师《机器学习基石》课程笔记2:Why can machines learn?
2 Why can machines learn?
2.1 Training vs Testing
2.1.1 Recap
两个核心问题:
- 能否保证\(E_{out}(g)≈E_{in}(g)\)?
- 能否使得\(E_{in}(g)≈0\)?
理解:
- 1.如果g≈f,则必有\(E_{out}(g)≈0\);
- 2.数据集D是在输入总体X上随机采样,并通过未知的映射模式f得到的(总体X的分布P是未知的);
- 3.只要M是有限的,且N足够大,那么Hoeffding不等式就能以PAC的方式,庇佑假设空间中每一个h都不会在D上踩雷,即以PAC的方式保证\(E_{out}(g)≈E_{in}(g)\);此时,算法A就可以自由选择想要的h作为最终的g,而不用担心选择的h不满足\(E_{out}(g)≈E_{in}(g)\);(换句话说,只要M和N达到1.4.4节的要求,就能以PAC的方式保证\(E_{out}(g)≈E_{in}(g)\))
- 4.在满足上一条情况下,如果算法A选择了某个h,使得\(E_{in}(g)≈0\),则可以获得\(E_{out}(g)≈0\);
- 5.虽然能以PAC的方式保证\(E_{out}(g)≈E_{in}(g)\),但天有不测风云,万一运气超背踩到雷,则不能保证\(E_{out}(g)≈E_{in}(g)\),所以训练之后还需要测试,让心里有个底。
大M小M的权衡如下,故当M为无穷大时,能否找到一个\(e^{2Nε^2}\)的低阶无穷大(记为\(X_H\))来代替M,就成了解决第一个核心问题的关键。
- M较小:好处是踩雷概率小;坏处是选择太少,可能无法获得\(E_{in}(g)≈0\);
- M较大:好处是选择较多;坏处是踩雷概率大。
从踩雷容忍度和踩雷概率的角度来看:
2.1.2 寻找\(X_H\)
几个概念:
- dichotomy(二分类):一个h对数据集D中N个样本的输出就称为D的一种dichotomy,即\(h(x_1,x_2,...x_n)\),一个dichotomy就是D的一个划分。很显然,对于二分类问题,任意 Hypothesis Set 对N个样本最多有\(2^N\)种dichotomy,即\(H(x_1,x_2,...x_n)≤2^N\) 。如果Hypothesis Set能将数据集D中N个点分解成\(2^N\)种dichotomies,则称该Hypothesis Set 能 shatter 该D。
- 成长函数(Growth Function):\(m_H(N)=max|H(x_1,x_2,...x_n)|\)。比如在二维线性分类中,\(m_H(N)\)分别为2(N=1)、4(N=2)、8(N=3)、14(N=4)...。注意:成长函数\(m_H(N)\)是 Hypothesis Set本身的性质,它代表了 Hypothesis Set 最多能将N个样本分成多少种 dichotomy,也就是我们所说的H最多可以归纳成几种 hypothesis(即effective number of hypotheses)。
- 对于确定的H,无论样本怎么变化,只要样本数N确定,最大的dichotomy数量(也就是成长函数的取值)就是确定的。比如对于PLA,\(m_H(3)\)就等于 8 (6和8的最大值是8)。
- 不同的Hypothesis Set有不同的\(m_H(N)\),例如:
- Break point:当N从某一点k开始,Hypothesis Set 做不出\(2^N\)种 dichotomy(即该假设空间不能shatter数据集中N个点,shatter为全部打散),这个对我们意义重大的点k就称为Hypothesis Set 的 Break Point。一旦Hypothesis Set出现Break Point点k,则原来增长极快的\(m_H(N)=2^N\),会被迅速拖住,使得当N=k+1、k+2、k+3...时,\(m_H(N)\)与\(2^N\)差距越来越大。例如在二维线性分类中,\(m_H(N)\)分别为2(N=1)、4(N=2)、8(N=3)、14(N=4)、22(N=5)...
用成长函数\(m_H(N)\)代替\(X_H\)仍然不够理想,因为不同的Hypothesis Set有不同的\(m_H(N)\),在某些情况(没有Break Point)下,\(m_H(N)\)可以一直取到上限值\(2^N\),而我们的目的是要找到一个\(e^{2Nε^2}\)的低阶无穷大,且希望\(X_H\)与Hypothesis Set细节无关。
2.2 Theory of generalization
2.2.1 Bounding function
尽管不同的Hypothesis Set有不同的\(m_H(N)\),但是可以证明,只用一个Break Point即可控制住不同的\(m_H(N)\)上限。记D中样本个数为N,Break Point为k,\(m_H(N)\)上限为B(N,k):
- 当N<k时,\(B(N,k)=2^N\)
- 当N=k时,\(B(N,k)=2^N-1\)
- 当N>k时,\(B(N,k)≤B(N-1,k-1)+B(N-1,k)\) (该情况更常见)
Bounding function(与Hypothesis Set已经无关)可总结为:
上述不等式的右边是最高阶为k-1的N多项式,也就是说成长函数\(m_H(N)\)的上界B(N,K)的上界满足多项式分布poly(N),这就是我们想要得到的结果。也就是说,如果能找到一个Hypothesis Set的break point,且是有限大的,那么就能通过Hoeffding不等式,利用增大样本数N限制住“踩雷概率”,使得预测准确率和训练准确率的差值超出误差的概率尽可能的小。
2.2.2 VC Bound
事实上并不能简单用成长函数去替换\(X_H\),在无限假设空间下训练误差和预测误差真正满足的公式长这样(第二行,证明略):
小结:
- 只要存在break point,那么其成长函数\(m_H(N)\)的上界就是N的k-1阶多项式,是\(e^{2Nε^2}\)的低阶无穷大,因此可以通过VC Bound不等式,利用增大样本数N限制住“踩雷概率”。即只要break point存在,且N足够大,那么就能保证\(E_{in}≈E_{out}\)。
- 若要成功学习,需要四个条件:1.好的D(N足够大);2.好的H(存在break point);3.好的算法A(能选出\(E_{in}\)最小的h);4.一点点运气(不要踩到雷)。
- 注意理解:VC公式中,至少存在一个h踩雷的概率被限制在一定范围。
2.3 VC dimension
核心:根据VC Bound推导结论。
2.3.1 VC dimension 定义
VC dimension定义:\(d_{VC} = k - 1\),或者说H最大能shatter的D的个数。(数据集D是否可被shatter,取决于:1.\(d_{VC}\)与N的大小关系;2.D的分布P。)
VC dimension是H本身固有的性质。
2.3.2 VC dimension of Perceptrons
若感知机的维度为d,则\(d_{VC} = d+1\)
证明方向:
- 1.证明\(d_{VC} ≥ d+1\):构造一个特殊的D,内含d+1个样本点,构成的X可逆,则对于任意一种dichotomy,都有对应的解\(w=X^{-1}y\),即D能被shatter;
- 2.证明\(d_{VC} ≤ d+1\):对于任意一个有d+2个样本点的D,由于样本点的长度为d+1(包括常数项),故该X中各样本向量必定线性相关,即存在某一个样本点可用其余向量表示,则当等式两边均乘以某一个\(W^T\)时(一个W对应一个超平面),该样本点的正负即随之而定,不存在可正可负的情况,即说明d+2个样本点无法被shatter。
2.3.3 VC dimension的意义
意义1:只要存在有限\(d_{VC}\),且N足够大,那么就能保证\(E_{in}≈E_{out}\)。(不用关心P、f、A的情况。)
意义2:\(d_{VC}\)是H能够shatter的最大个数,表征了H的表达能力。\(d_{VC}\)越大,模型的表达能力就越强,则更有能力选出更小的\(E_{in}\)。
意义3:\(d_{VC}\)越大,模型复杂度越高,踩雷概率变大,VC Bound不等式对复杂度的惩罚(Ω)就越大。即如果要维持踩雷概率δ,保证同样的泛化误差ε,则需要更多的N。(注意δ和ε的关系式)
\(d_{VC}\)是矛盾的中心,\(d_{VC}\)越大,\(E_{in}\)越小,但是\(E_{in}\)和\(E_{out}\)偏差就越大。如果我们希望获得更好的预测表现,并不能一味地追求更大的\(d_{VC}\),模型复杂度也并非越高越好,控制和选择合适的\(d_{VC}\)是机器学习算法设计非常重要的技巧。
注意:
- \(d_{VC}\)是H能够shatter的最大个数,表征了H的表达能力。\(d_{VC}\)越小,踩雷概率δ越小,但H的表达能力越弱;\(d_{VC}\)越大,H的表达能力越强,但δ越大。
- \(d_{VC}\)表征了二分型H的自由度,大致等同于可调节的独立参数。例如Positive Rays(\(d_{VC}=1\)),Positive Intervals(\(d_{VC}=2\)),感知机(\(d_{VC}=d+1\))
- 下图是关于成长函数、Bound函数、poly(N)。故由VC Bound可知,当存在break point时:\(P(踩雷)≤4(2N)^{d_{VC}}exp(-1/8Nε^2)\)
- 模型复杂度:红色石头笔记说是根号这一坨Ω,但课件上说Ω是对模型复杂度的惩罚,实际上Ω这一坨是泛化误差ε的具体表示。故暂认为模型复杂度为模型的自由度,即可调节的独立参数。
2.3.4 样本复杂度
样本复杂度:N的大小。
那么,如果选定\(d_{VC}\),样本数据D的容量N选择多少合适呢?
计算结果显示N大约是\(d_{VC}\)的10000倍。这个数值太大了,实际中往往不需要这么多的样本数量,大概只需要\(d_{VC}\)的10倍就够了。N的理论值之所以这么大是因为VC Bound 过于宽松了,我们得到的是一个比实际大得多的上界。宽松原因如下。
值得一提的是,VC Bound虽然比较宽松,但很难进一步收紧。但是,令人欣慰的一点是,VC Bound基本上对所有模型的宽松程度是基本一致的,所以,不同模型之间还是可以横向比较。从而,VC Bound宽松对机器学习的可行性还是没有太大影响。
2.4 Noise and error
- Noise 来源
- 由于人为因素,正类被误分为负类,或者负类被误分为正类;
- 同样特征的样本被模型分为不同的类;
- 样本的特征被错误记录和使用。
- 之前的数据集是确定的,即没有Noise,我们称之为Deterministic。现在有Noise了,也就是说在某点处不再是确定分布,而是概率分布了,即对每个(x,y)出现的概率是P(y|x)。比如在x点,有0.7的概率y=1,有0.3的概率y=0。数学上可以证明如果数据集按照P(y|x)概率分布且是iid的,那么以前证明机器可以学习的方法依然奏效。P(y|x)称之为目标分布(Target Distribution)。它实际上告诉我们最好的选择是什么,同时伴随着多少noise。
- Error measure:有0-1 err、Squared err等,Ideal Mini Target由P(y|x)和err共同决定,不同的err选出的g可能不一样。
- 实际问题中,对false accept和false reject可能选择不同的权重(犯错严重程度不一样、数据不平衡等)。