PRML-3.2 偏置-方差分解

本章节主要讨论
在使用贝叶斯方法对参数进行求和或者积分时，过拟合现象不会出现

1.偏置-方差分解

1.5.5节中，当我们讨论回归问题的决策论时，我们考虑了一旦我们知道了条件概率分布 $p(t|x)$ ，就能够给出对应的最优预测结果的不同损失函数。使用最多的平方误差函数，此时最优预测的条件期望：

\begin{matrix} (3.36) & h (x) = E [t | x] = \int t p (t | x) d t \end{matrix}

$h(x) = \mathbb{E}[t|x] = \int tp(t|x)dt \tag{3.36}$

在1.5.5节中，我们证明了平方损失函数的期望可以写成(1.90)

\begin{matrix} (3.37) & E [L] = \int {y (x) - h (x)}^{2} p (x) d x + \int \int {h (x) - t}^{2} p (x, t) d x d t \end{matrix}

$\mathbb{E}[L] = \int \{y(x)-h(x)\}^2p(x)dx+\int\int\{h(x)-t\}^2p(x,t)dxdt \tag{3.37}$

$第二项与y(x)无关，是数据本身噪声造成的，表示期望损失能达到的最小值$

如果使用由参数向量 $w$ 控制的参数函数$ y(x,w) $来对$ h(x) $建模，那么从贝叶斯的观点来看，模型的不确定性是通过$ w$的后验概率分布p(w|x)来表示的。但频率学家用数据集D对w进行点估计，然后用下面的思想实验估计不确定性。

尝试通过下面的思想实验来表示估计的不确定性

考虑式（3.37）的第一项的被积函数，对于一个特定的数据集 $D$ ，它的形式为：

\begin{matrix} (3.38) & {y (x; D) - h (x)}^{2} \end{matrix}

$\{y(x;D)−h(x)\}^2 \tag{3.38}$

展开有

\begin{matrix} (3.39) & \begin{matrix} {y (x; D) - E_{D} [y (x; D)] + E_{D} [y (x; D)] - h (x)}^{2} \\ = {y (x; D) - E_{D} [y (x; D)]}^{2} + {E_{D} [y (x; D)] - h (x)}^{2} \\ + 2 {y (x; D) - E_{D} [y (x; D)]} {E_{D} [y (x; D)] - h (x)} \end{matrix} \end{matrix}

$\begin{array}{c} \left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]+\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2} \\ =\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}+\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2} \\ \quad+2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\} \end{array} \tag{3.39}$

再在 $D$ 上求期望

其中3.39中的
第一项求期望后
$\mathbb{E}_{\mathcal{D}}[\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}],也就是下面的方差项$
第二项求期望后
$\mathbb{E}_{\mathcal{D}}[\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}],因为h(x)和D无关，所以这一项不动，仍然=\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}$
第三项求期望后
$\mathbb{E}_{\mathcal{D}}[2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}]=0$
$其中\mathbb{E}_{\mathcal{D}}[2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}]=2\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]=0$

最后有结论如下

\begin{matrix} (3.40) & \begin{array}{l} E_{D} [{y (x; D) - h (x)}^{2}] \\ = \underset{(偏置)^{2}}{\underset{⏟}{{E_{D} [y (x; D)] - h (x)}^{2}}} + \underset{方差}{\underset{⏟}{E_{D} [{y (x; D) - E_{D} [y (x; D)]}^{2}]}} \end{array} \end{matrix}

$\begin{array}{l} \mathbb{E}_{\mathcal{D}}\left[\{y(\boldsymbol{x} ; \mathcal{D})-h(\boldsymbol{x})\}^{2}\right] \\ =\underbrace{\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}}_{(\text {偏置 })^{2}}+\underbrace{\mathbb{E}_{\mathcal{D}}\left[\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}\right]}_{\text {方差 }} \end{array} \tag{3.40}$

剩下的不解释了
总之，期望损失函数在偏置和方差中做了折中，贝叶斯模型就是这么一个情况