经验风险最小化与结构风险最小化
经验风险最小化与结构风险最小化
经验风险最小化
经验风险最小化的策略认为,经验风险最小的模型是最优的模型:
\[\min_{f\in F}\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))\tag7
\]
当样本容量足够大时,经验风险最小化能保证有很好的学习效果。比如,极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计
。
但当样本容量很小时,经验风险最小化容易导致“过拟合”。
结构风险最小化
结构风险最小化(structural minimization, SRM)是为了防止过拟合提出的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。结构风险的定义是:
\[R_{srm}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))+\lambda J(f) \tag8
\]
其中\(J(f)\)是模型复杂度的函数,\(\lambda\geq0\)是系数,用来权衡经验风险和模型复杂度。
结构风险最小化的策略认为结构风险最小的模型是最优模型:
\[\min_{f\in F}[\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f)]
\]
结构风险小需要经验风险和模型复杂度同时都小
,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。
比如,贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时
,结构风险最小化就等价于最大后验概率估计。