PRML-3.2 偏置-方差分解
本章节主要讨论
在使用贝叶斯方法对参数进行求和或者积分时,过拟合现象不会出现
1.偏置-方差分解
1.5.5节中,当我们讨论回归问题的决策论时,我们考虑了一旦我们知道了条件概率分布$ p(t|x) $,就能够给出对应的最优预测结果的不同损失函数。使用最多的平方误差函数,此时最优预测的条件期望:
在1.5.5节中,我们证明了平方损失函数的期望可以写成(1.90)
\(第二项与y(x)无关,是数据本身噪声造成的,表示期望损失能达到的最小值\)
如果使用由参数向量\(w\)控制的参数函数$ y(x,w) \(来对\)h(x)\(建模,那么从贝叶斯的观点来看,模型的不确定性是通过\)w$的后验概率分布p(w|x)来表示的。但频率学家用数据集D对w进行点估计,然后用下面的思想实验估计不确定性。
尝试通过下面的思想实验来表示估计的不确定性
考虑式(3.37)的第一项的被积函数,对于一个特定的数据集\(D\),它的形式为:
展开有
再在\(D\)上求期望
其中3.39中的
第一项求期望后
\(\mathbb{E}_{\mathcal{D}}[\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}^{2}],也就是下面的方差项\)
第二项求期望后
\(\mathbb{E}_{\mathcal{D}}[\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}],因为h(x)和D无关,所以这一项不动,仍然=\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}^{2}\)
第三项求期望后
\(\mathbb{E}_{\mathcal{D}}[2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}\left\{\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]-h(\boldsymbol{x})\right\}]=0\)
\(其中\mathbb{E}_{\mathcal{D}}[2\left\{y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]\right\}]=2\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})-\mathbb{E}_{\mathcal{D}}[y(\boldsymbol{x} ; \mathcal{D})]=0\)
最后有结论如下
剩下的不解释了
总之,期望损失函数在偏置和方差中做了折中,贝叶斯模型就是这么一个情况