PRML-公式推导 - 2.21-2.24

我们用频率学角度证明这点。考虑一个贝叶斯推断,参数为\(\theta\)并且观测了一个数据集D,由联合分布\(p(\theta,D)\)表示.

\[\mathbb{E}_\theta[\theta] = \mathbb{E}_D[\mathbb{E}_\theta[\theta|D]] \tag{2.21} \]

其中
$ \mathbb{E}_\theta[\theta] = \int p(\theta)\theta d\theta \tag{2.22}$

\[\mathbb{E}_{\mathcal{D}}\left[\mathbb{E}_{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid \mathcal{D}]\right] \equiv \int\left\{\int \boldsymbol{\theta} p(\boldsymbol{\theta} \mid \mathcal{D}) \mathrm{d} \boldsymbol{\theta}\right\} p(\mathcal{D}) \mathrm{d} \mathcal{D} \tag{2.23} \]

\(\theta\)的后验均值(在产生数据集的分布上的平均)等于\(\theta\)的先验均值。同样的我们可以得到:

\[var_\theta[\theta] = \mathbb{E}_D[var_\theta[\theta|D]] + var_D[\mathbb{E}_\theta[\theta|D]] \tag{2.24} \]


\(\mathbb{E}_D[\mathbb{E}_{\theta}[\theta]D]]=\mathbb{E}_D[\int \theta p(\theta|D)d\theta]\)
\(=\mathbb{E}_D[\int \theta \frac{p(\theta,D)}{p(D)}d\theta]\)
\(=\int(\int\theta \frac{p(\theta,D)}{p(D)}d\theta)p(D)dD,-----p(D)可以约去\)
\(=\int\int_{\theta} p(\theta,D)d\theta dD\)
\(=\int_{\theta} \int p(\theta,D)dDd\theta\)
\(=\int_{\theta} p(\theta)d\theta\)
\(=\mathbb{E}_{\theta}[\theta]\)

\(\mathbb{E}_D[var_{\theta}[\theta|D]]+var_D[\mathbb{E}_{\theta}[\theta|D]]\)
\(=\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D] - \mathbb{E}_{\theta}^2[\theta|D]]+\mathbb{E}_D[\mathbb{E}_{\theta}^2[\theta|D]]- \mathbb{E}_D^2[\mathbb{E}_{\theta}[\theta|D]]\)
\(=\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D]] - \mathbb{E}_D[\mathbb{E}_{\theta}^2[\theta|D]]+\mathbb{E}_D[\mathbb{E}_{\theta}^2[\theta|D]]- \mathbb{E}_D^2[\mathbb{E}_{\theta}[\theta|D]]\)
\(=\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D]] - \mathbb{E}_D^2[\mathbb{E}_{\theta}[\theta|D]]\)
\(利用\mathbb{E}_D[\mathbb{E}_{\theta}[\theta|D]] =\mathbb{E}_{\theta}[\theta],得到\mathbb{E}_D[\mathbb{E}_{\theta}[\theta^2|D]] =\mathbb{E}_{\theta}[\theta^2]\)
\(继续=\mathbb{E}_{\theta}[\theta^2]-\mathbb{E}_{\theta}^2[\theta]\)
\(=var_{\theta}[\theta]\)

posted @ 2022-03-15 22:15  筷点雪糕侠  阅读(107)  评论(0编辑  收藏  举报