PRML-公式推导 - 2.21-2.24
我们用频率学角度证明这点。考虑一个贝叶斯推断,参数为\(\theta\)并且观测了一个数据集D,由联合分布\(p(\theta,D)\)表示.
其中
$ \mathbb{E}_\theta[\theta] = \int p(\theta)\theta d\theta \tag{2.22}$
\(\theta\)的后验均值(在产生数据集的分布上的平均)等于\(\theta\)的先验均值。同样的我们可以得到:
\(\mathbb{E}_D[\mathbb{E}_{\theta}[\theta]D]]=\mathbb{E}_D[\int \theta p(\theta|D)d\theta]\)
\(=\mathbb{E}_D[\int \theta \frac{p(\theta,D)}{p(D)}d\theta]\)
\(=\int(\int\theta \frac{p(\theta,D)}{p(D)}d\theta)p(D)dD,-----p(D)可以约去\)
\(=\int\int_{\theta} p(\theta,D)d\theta dD\)
\(=\int_{\theta} \int p(\theta,D)dDd\theta\)
\(=\int_{\theta} p(\theta)d\theta\)
\(=\mathbb{E}_{\theta}[\theta]\)
\(\mathbb{E}_D[var_{\theta}[\theta|D]]+var_D[\mathbb{E}_{\theta}[\theta|D]]\)
\(=\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D] - \mathbb{E}_{\theta}^2[\theta|D]]+\mathbb{E}_D[\mathbb{E}_{\theta}^2[\theta|D]]- \mathbb{E}_D^2[\mathbb{E}_{\theta}[\theta|D]]\)
\(=\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D]] - \mathbb{E}_D[\mathbb{E}_{\theta}^2[\theta|D]]+\mathbb{E}_D[\mathbb{E}_{\theta}^2[\theta|D]]- \mathbb{E}_D^2[\mathbb{E}_{\theta}[\theta|D]]\)
\(=\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D]] - \mathbb{E}_D^2[\mathbb{E}_{\theta}[\theta|D]]\)
\(利用\mathbb{E}_D[\mathbb{E}_{\theta}[\theta|D]] =\mathbb{E}_{\theta}[\theta],得到\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D]] =\mathbb{E}_{\theta}[\theta^2]\)
\(继续=\mathbb{E}_{\theta}[\theta^2]-\mathbb{E}_{\theta}^2[\theta]\)
\(=var_{\theta}[\theta]\)