期望误差和经验误差的关系——期望误差上界

4230编辑收藏

  机器学习希望最小化模型的期望(泛化)误差L,即模型在整个数据分布上的平均误差。然而我们只能在训练集上最小化经验误差L^,我们期望通过最小化经验误差来最小化泛化误差。但是训练数据和数据真实分布之间是有差异的,又根据奥卡姆剃刀原理,在训练误差相同的情况下,模型复杂度越小,泛化性能越好,因此一些理论提出使用经验误差和模型复杂度来估计模型期望误差的上界。通常表示为以下形式:

LL^+O(Complexityn)

Ex,yBL(g(x),y)i=1nL(g(xi),yi)+O(GComplexn)

  其中n表示训练数据量,g表示拟合完后的模型,G表示g的假设类(优化空间),gGGComplex表示假设类的复杂度。这些不等式的主要区别在于对模型复杂度的量化,即不等式右边第二项。

1  VC维#

  VC维表示模型(假设类、优化空间)一定可以完美拟合的最大数据量,一定程度上度量了模型的表示能力。比如对于二维线性模型f(x)=σ(w1x1+w2x2+b),其VC维为3。可以很容易判断在二维空间中任意的三个点都是线性可分的,从而f(x)可以完美划分拟合。而对于4个点,出现异或的情况时,二维线性模型就不能划分了。

  对于VC维为h的模型,期望误差上界为

LL^+h(log(2n/h)+1)log(η/4)n

  其中右侧称为风险边界,其中η为置信度,取值(0,1]。不等式成立的概率为1η

  参考:

  https://blog.csdn.net/qq_43391414/article/details/111692672

  https://zhuanlan.zhihu.com/p/94480190

2  Rademacher复杂度#

  Rademacher复杂度是一种衡量模型复杂度的度量,特别是在处理大样本限定的统计学习中。对于一个数据集,Rademacher复杂度被定义为随机分配标签后,模型能够拟合这些随机标签的能力。直观上看,如果一个模型可以很好地拟合随机的噪声,那么它可能过于复杂,有过拟合的风险。相较于VC维,Rademacher复杂度与数据相关,因此最终得到的bound更紧,对于调节模型复杂度具有更强的指导意义。

  对于一个给定的假设类(例如某个待优化的线性模型,或所有的深度为2的决策树),和给定的数据集大小n,我们可以计算假设类的Rademacher复杂度。为了计算Rademacher复杂度,我们随机分配标签给数据集,然后找到在这个随机标签数据集上误差最小的假设,计算这个假设在这个随机标签数据集上的正确率。重复这一过程多次,平均得到的所有正确率。则这个平均正确率就是假设类的Rademacher复杂度。

  比如对于包含n个训练样本的二分类任务,假设类为G,其Rademacher复杂度Rn(G)表示为:

Rn(G)=Eσ[supgG1ni=1nσig(xi)]

  其中随机数据集标签σ服从在{1,+1}n上的均匀分布。相应的望误差上界为:

LL^+2Rn(G)+log1δ2n

LL^+2Rn(G)+3log2δ2n

  以上两个不等式同时在1δ的概率下成立。

  参考:

  ChatGPT 4.0

  https://www.zhihu.com/question/264208923

  https://zhuanlan.zhihu.com/p/337298338

  

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
很高兴能帮到你~
点赞
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示