PRML-3.2 偏置-方差分解

本章节主要讨论
在使用贝叶斯方法对参数进行求和或者积分时,过拟合现象不会出现

1.偏置-方差分解

1.5.5节中,当我们讨论回归问题的决策论时,我们考虑了一旦我们知道了条件概率分布$ p(t|x) $,就能够给出对应的最优预测结果的不同损失函数。使用最多的平方误差函数,此时最优预测的条件期望:

\[h(x) = \mathbb{E}[t|x] = \int tp(t|x)dt \tag{3.36} \]

在1.5.5节中,我们证明了平方损失函数的期望可以写成(1.90)

\[\mathbb{E}[L] = \int \{y(x)-h(x)\}^2p(x)dx+\int\int\{h(x)-t\}^2p(x,t)dxdt \tag{3.37} \]

\(第二项与y(x)无关,是数据本身噪声造成的,表示期望损失能达到的最小值\)

如果使用由参数向量\(w\)控制的参数函数$ y(x,w) \(来对\)h(x)\(建模,那么从贝叶斯的观点来看,模型的不确定性是通过\)w$的后验概率分布p(w|x)来表示的。但频率学家用数据集D对w进行点估计,然后用下面的思想实验估计不确定性

尝试通过下面的思想实验来表示估计的不确定性

考虑式(3.37)的第一项的被积函数,对于一个特定的数据集\(D\),它的形式为:

\[\{y(x;D)−h(x)\}^2 \tag{3.38} \]

展开有

\[\begin{array}{c} \left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]+\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2} \\ =\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}+\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2} \\ \quad+2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\} \end{array} \tag{3.39}\]

再在\(D\)上求期望

其中3.39中的
第一项求期望后
\(\mathbb{E}_{\mathcal{D}}[\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}],也就是下面的方差项\)
第二项求期望后
\(\mathbb{E}_{\mathcal{D}}[\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}],因为h(x)和D无关,所以这一项不动,仍然=\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}\)
第三项求期望后
\(\mathbb{E}_{\mathcal{D}}[2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}]=0\)
\(其中\mathbb{E}_{\mathcal{D}}[2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}]=2\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]=0\)

最后有结论如下

\[\begin{array}{l} \mathbb{E}_{\mathcal{D}}\left[\{y(\boldsymbol{x} ; \mathcal{D})-h(\boldsymbol{x})\}^{2}\right] \\ =\underbrace{\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}}_{(\text {偏置 })^{2}}+\underbrace{\mathbb{E}_{\mathcal{D}}\left[\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}\right]}_{\text {方差 }} \end{array} \tag{3.40} \]

剩下的不解释了
总之,期望损失函数在偏置和方差中做了折中,贝叶斯模型就是这么一个情况

posted @ 2022-03-21 16:41  筷点雪糕侠  阅读(93)  评论(0编辑  收藏  举报