loujiayu

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

    线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合。

    尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能很好的预测,也就是说有较大的泛化误差,上面的右边与左边的图都有很大的泛化误差,他们的情况各不相同,如果数据是非线性的,我们无法使用线性模型来精确的预测,即它的偏差很大,引起欠拟合。而如果像上面右图那样形成一个五次多项式的模型,很可能是我们的训练集数据很小的情况下建立的,它就不能反映出x与y更广泛的关系,这种模型有很大的偏差,引起过拟合。所以归根结底,学习算法其实就是找偏差方差的一个平衡点达到上面中图的效果。

    在证明偏差方差权衡前先来介绍两个在推导时要用到的两个定理。

    1.假设 是k个不同的事件,P(A)代表事件发生的概率,那么,这对于学过概率论的同学肯定容易推到出来。

    2.Hoeffding不等式是关于一组随机变量均值的概率不等式. 为一组随机变量, , 定义一组随机变量的均值为

Hoeffding不等式可以表示为

如果为一组独立同分布的参数为p的伯努利分布随机变量上述不等式可以表示为

    

    假设有一个训练集 ,样本服从独立同分布D,对于一个假设类h,定义训练误差为

    定义泛化误差:

    泛化误差即有一个新的样本点(x,y)服从分布D,类h判错这个样本的概率。使 ,通过选取θ来最小化训练误差的过程叫做经验风险最小化(empirical risk minimization (ERM)),

    我们定义Η为假设类的集合

现在经验风险最小化可以改写为

对于有限的假设类集合,通过上面的描述泛化误差就是独立同分布随机变量的期望值,代入到Hoeffding不等式

这个式子表明了对于给定一个假设 ,假设样本数量m很大,泛化误差与训练误差很接近,应用到k个假设中

两边同时被1减去得到

对于给定一个γ和 ,至少多大的m能够保证 ,通过推导得到

定义, 是在集合H里面具有最小训练误差的假设,即,又根据 最多相差一个 ,所以可以得出下列的推导步骤:

从而得到

这个不等式验证了本文一开始得出的结论,假设类的集合k增大时,minε(h)肯定是越来越小的,而第二项的对数式则随着k的增大而减小,k很小时就是前面所说的欠拟合的情况,相反k很大时即过拟合,两种情况都会导致泛化误差 增大,我们要做的就是选择一个合适的k,来最小化泛化误差。

posted on 2014-01-06 23:40  Stinky tofu  阅读(442)  评论(0编辑  收藏  举报