贝叶斯统计推断的阅读笔记
这里将MIT的《概率导论》关于贝叶斯统计推断的阐述总结一下。
1、问题描述:
已知:
(1)参数$\Theta$的先验分布$p_{\Theta}(\theta)$
(2)$\theta$给定的前提下,相关变量$X$的分布:$p_{X|\Theta}(x|\theta)$
(3)$X$的一系列观测样本:$X_1,X_2,\cdots,X_n$
求:
参数$\Theta$的后验分布:$p_{\Theta|X}(\theta|x)=\frac{p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)}{\sum_{\theta'}p_{X|\Theta}(x|\theta')Pp_{\Theta}(\theta')}\propto p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)$
2、点估计:
(1)估计量:随机变量$\hat\Theta=g(X)$
(2)估计值:随机变量取值$\hat\theta=g(x)$
(3)均方误差
(a) 对任何估计量$\hat\theta$,定义均方误差为:$\mathrm E[(\Theta-\hat\theta)^2]=\mathrm{var}(\Theta)+(\mathrm E[\Theta]-\hat\theta)^2$
(b) 在有观测值$x$的情况下,定义均方误差为:$\mathrm E[(\Theta-\hat\theta)^2|x]=\mathrm{var}(\Theta|x)+(\mathrm E[\Theta|x]-\hat\theta)^2$
(4)常见估计类型:
(a)最大后验估计:$\hat\theta=\arg\max_\theta p_{\Theta|X}(\theta|x)=\arg\max_\theta p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)$
(b)最小均方估计:$\hat\theta=\mathrm E[\Theta|x]=\sum_\theta \theta p(\theta|x)$
(c)最小线性均方估计
3、最大后验估计
(1) $\hat\theta=\arg\max_\theta p_{\Theta|X}(\theta|x)=\arg\max_\theta p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)$
(2) 最大后验估计使得选择错误假设的概率达到最小
4、最小均方估计
(1) 无观测值:
当$\hat\theta=\mathrm E[\Theta]$时,均方误差达到最小:$\mathrm E[(\Theta-\hat\theta)^2]=\mathrm{var}(\Theta)+(\mathrm E[\Theta]-\hat\theta)^2=\mathrm{var}(\Theta)$
(2) 有观测值$X=x$
当$\hat\theta=\mathrm E[\Theta|x]$时,均方误差达到最小:$\mathrm E[(\Theta-\hat\theta)^2|x]=\mathrm{var}(\Theta|x)+(\mathrm E[\Theta|x]-\hat\theta)^2=\mathrm{var}(\Theta|x)+E(\hat\theta-\hat\theta)=\mathrm{var}(\Theta|x)$
(3) 最小均方估计的性质
令$\hat\Theta=\mathrm E[\Theta|X]$,误差$\tilde\Theta=\hat\Theta-\Theta$,有:
(a) 对任意$X=x$, 有$\mathrm E[\tilde\Theta|x]=\mathrm E[\hat\Theta-\Theta|x]=\mathrm E[\mathrm E[\Theta|x]-\Theta|x]=\mathrm E[\Theta|x]-\mathrm E[\Theta|x]=0$
(b) $\mathrm E[\tilde\Theta]=\mathrm E[\mathrm E[\tilde\Theta|X]]=\mathrm E[0]=0$
(c) $\mathrm E[\hat\Theta\tilde\Theta]=\mathrm E[\mathrm E[\hat\Theta\tilde\Theta|X]]=\mathrm E[\hat\Theta \mathrm E[\tilde\Theta|X]]=\mathrm E[\hat\Theta\cdot 0]=0$
(d) $\mathrm{cov}(\hat\Theta, \tilde\Theta)=\mathrm E[\hat\Theta\tilde\Theta]-\mathrm E[\hat\Theta]\mathrm E[\tilde\Theta]=0-\mathrm E[\hat\Theta]\cdot 0=0$
(e) $\mathrm{var}(\tilde\Theta)=\mathrm E[(\tilde\Theta-\mathrm E[\tilde\Theta])^2]=\mathrm E[\tilde\Theta^2]=\mathrm E[\mathrm E[\tilde\Theta^2|X]]=\mathrm E[\mathrm E[(\tilde\Theta-\mathrm E[\tilde\Theta|X])^2|X]]=\mathrm E[\mathrm{var}(\Theta|X)]$
(f) $\mathrm{var}(\hat\Theta)=\mathrm{var}(\mathrm E[\Theta|X])$
(g) $\mathrm{var}(\Theta)=\mathrm{var}(\hat\Theta+\tilde\Theta)=\mathrm{var}(\hat\Theta)+\mathrm{var}(\tilde\Theta)+2\mathrm{cov}(\hat\Theta, \tilde\Theta)=\mathrm{var}(\hat\Theta)+\mathrm{var}(\tilde\Theta)=\mathrm{var}(\mathrm E[\Theta|X])+\mathrm E[\mathrm{var}(\Theta|X)]$
5、线性最小均方估计
令$\hat\Theta=aX+b$,取$a$和$b$使得$\mathrm E[(\Theta-\hat\Theta)^2]$最小。
在$a$已经确定的前提下,要获得最小均方,有:
$b=\mathrm E[\Theta-aX]=\mathrm E[\Theta]-a\mathrm E[X]$
代入有
$\mathrm E[(\Theta-\hat\Theta)^2]=\mathrm E[(\Theta-aX-\mathrm E[\Theta]+a\mathrm E[X])^2]=\mathrm E[((\Theta-aX)-E(\Theta-aX))^2]=\mathrm{var}(\Theta-aX)$
$=\sigma_\Theta^2+a^2\sigma_X^2-2a\cdot \mathrm{cov}(\Theta,X)$
为求最值,其导数为0:
$2a\sigma_X-2\cdot \mathrm{cov}(\Theta,X)=0$
因此$a=\frac{\mathrm{cov}(\Theta,X)}{\sigma_X^2}=\rho\frac{\sigma_\Theta}{\sigma_X}$
代入有:
$\hat\Theta=aX+b=aX+\mathrm E[\Theta]-a\mathrm E[X]=\mathrm E[\Theta]+a(X-\mathrm E[X])=\mathrm E[\Theta]+\frac{\mathrm{cov}(\Theta,X)}{\sigma_X^2}(X-\mathrm E[X])$
均方估计误差$\mathrm E[(\Theta-\hat\Theta)^2]=\mathrm{var}(\Theta-aX)=\sigma_\Theta^2+a^2\sigma_X^2-2\mathrm{cov}(\Theta,X)=(1-\rho^2)\sigma_\theta^2$
6、多变量线性最小均方估计
上述都是单观察值的情形,对于多观察值$(X_1,X_2,\cdots,X_n)$,建立联合分布概率比较困难,或者概率分布表达式十分复杂,因此采用简化模型。一种常见的是线性最小均方估计