经验风险最小化与结构风险最小化

1|0经验风险最小化与结构风险最小化

1|1经验风险最小化

经验风险最小化的策略认为,经验风险最小的模型是最优的模型:

\[\min_{f\in F}\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))\tag7 \]

当样本容量足够大时,经验风险最小化能保证有很好的学习效果。比如,极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计

但当样本容量很小时,经验风险最小化容易导致“过拟合”。

1|2结构风险最小化

结构风险最小化(structural minimization, SRM)是为了防止过拟合提出的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。结构风险的定义是:

\[R_{srm}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))+\lambda J(f) \tag8 \]

其中\(J(f)\)是模型复杂度的函数,\(\lambda\geq0\)是系数,用来权衡经验风险和模型复杂度。

结构风险最小化的策略认为结构风险最小的模型是最优模型:

\[\min_{f\in F}[\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f)] \]

结构风险小需要经验风险和模型复杂度同时都小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

比如,贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

参考:https://blog.csdn.net/pxhdky/article/details/83544932


__EOF__

本文作者Saoirse
本文链接https://www.cnblogs.com/Jason66661010/p/14630688.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Jason66661010  阅读(640)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示