经验风险、期望风险、结构风险

我的理解:

经验风险,基于样本学习的经验进行决策的错误风险(或称由样本学习的经验进行决策所造成的损失)。将经验风险最小化,将会使模型对训练样本的学习能力增强,表现为拟合能力增强。显然,一味的经验风险最小化,会使得模型对训练样本过拟合。

期望风险,所谓期望,是对所有可能输入的分布的预测,假定输入的分布服从P(X)。则在此分布基础上进行样本训练时,每个样本在总体中的概率是已知的,故对每个训练样本进行决策时,其原来的经验风险可以重新描述为期望风险。由于考虑到了样本在总体中的分布(先验),此时的损失函数更为准确。然而,这种先验知识往往不会事先得到(虽然可以凭借经验进行预测,但始终不是总体的真是分布),因此期望风险是乌托邦。

结构风险,经验风险最小化带来过拟合,期望风险可望而不可即。重新考虑过拟合,一个模型过拟合是由于训练过程使得该模型的参数结构更倾向于让模型识别训练样本。为了减轻模型对训练样本的过拟合,只需要约束参数的结构向识别训练样本的方向发展,在经验风险的基础上加上一个正则化项(惩罚项)即可。此时的风险就是结构风险了。

 

------------------------------------------------   我是分隔线  o(* ̄▽ ̄*)ブ  -----------------------------------------------

 

以下内容参考:https://blog.csdn.net/liyajuan521/article/details/44565269

要区分这三个概念,需要先讲一下损失函数L(Y,f(x))的概念。

损失函数:针对单个具体样本,表示模型预测值与真实样本值之间的差距。损失函数越小,说明模型对于该样本预测越准确。常见损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(对数似然损失函数)。

经验风险:对所有训练样本都求一次损失函数,再累加求平均。即,模型f(x)对训练样本中所有样本的预测能力。

所谓经验风险最小化即对训练集中的所有样本点损失函数的平均最小化。经验风险越小说明模型f(x)对训练集的拟合程度越好。

期望风险:对所有样本(包含未知样本和已知的训练样本)的预测能力,是全局概念。(经验风险则是局部概念,仅仅表示决策函数对训练数据集里的样本的预测能力。)

理想的模型(决策)函数应该是让所有的样本的损失函数最小(即期望风险最小化)。但是期望风险函数往往不可得,所以用局部最优代替全局最优。这就是经验风险最小化的理论基础。

 

总结经验风险和期望风险之间的关系:

经验风险是局部的,基于训练集所有样本点损失函数最小化。经验风险是局部最优,是现实的可求的。

期望风险是全局的,基于所有样本点损失函数最小化。期望风险是全局最优,是理想化的不可求的。

 

缺点:只考虑经验风险的话,会出现过拟合现象,即模型f(x)对训练集中所有的样本点都有最好的预测能力,但是对于非训练集中的样本数据,模型的预测能力非常不好。怎么办?这就需要结构风险。

结构风险:对经验风险和期望风险的折中,在经验风险函数后面加一个正则化项(惩罚项),是一个大于0的系数lamada。J(f)表示的是模型的复杂度。

经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。也可以理解为模型决策函数的复杂程度是过拟合的必要条件,那么我们要想防止过拟合现象的方式,就要破坏这个必要条件,即降低决策函数的复杂度。也即,让惩罚项J(f)最小化,现在出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化。

 

posted @ 2018-11-29 17:04  leizhao  阅读(1365)  评论(0编辑  收藏  举报