贝叶斯统计推断的阅读笔记

这里将MIT的《概率导论》关于贝叶斯统计推断的阐述总结一下。

 

1、问题描述:

已知:

(1)参数$\Theta$的先验分布$p_{\Theta}(\theta)$

(2)$\theta$给定的前提下,相关变量$X$的分布:$p_{X|\Theta}(x|\theta)$

(3)$X$的一系列观测样本:$X_1,X_2,\cdots,X_n$

求:

参数$\Theta$的后验分布:$p_{\Theta|X}(\theta|x)=\frac{p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)}{\sum_{\theta'}p_{X|\Theta}(x|\theta')Pp_{\Theta}(\theta')}\propto p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)$

 

2、点估计:

(1)估计量:随机变量$\hat\Theta=g(X)$

(2)估计值:随机变量取值$\hat\theta=g(x)$

(3)均方误差

  (a) 对任何估计量$\hat\theta$,定义均方误差为:$\mathrm E[(\Theta-\hat\theta)^2]=\mathrm{var}(\Theta)+(\mathrm E[\Theta]-\hat\theta)^2$

  (b) 在有观测值$x$的情况下,定义均方误差为:$\mathrm E[(\Theta-\hat\theta)^2|x]=\mathrm{var}(\Theta|x)+(\mathrm E[\Theta|x]-\hat\theta)^2$

(4)常见估计类型:

  (a)最大后验估计:$\hat\theta=\arg\max_\theta p_{\Theta|X}(\theta|x)=\arg\max_\theta p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)$

  (b)最小均方估计:$\hat\theta=\mathrm E[\Theta|x]=\sum_\theta \theta p(\theta|x)$

  (c)最小线性均方估计

 

3、最大后验估计

(1) $\hat\theta=\arg\max_\theta p_{\Theta|X}(\theta|x)=\arg\max_\theta p_{X|\Theta}(x|\theta)p_{\Theta}(\theta)$

(2) 最大后验估计使得选择错误假设的概率达到最小

 

4、最小均方估计

(1) 无观测值:

当$\hat\theta=\mathrm E[\Theta]$时,均方误差达到最小:$\mathrm E[(\Theta-\hat\theta)^2]=\mathrm{var}(\Theta)+(\mathrm E[\Theta]-\hat\theta)^2=\mathrm{var}(\Theta)$

(2) 有观测值$X=x$

当$\hat\theta=\mathrm E[\Theta|x]$时,均方误差达到最小:$\mathrm E[(\Theta-\hat\theta)^2|x]=\mathrm{var}(\Theta|x)+(\mathrm E[\Theta|x]-\hat\theta)^2=\mathrm{var}(\Theta|x)+E(\hat\theta-\hat\theta)=\mathrm{var}(\Theta|x)$

(3) 最小均方估计的性质

令$\hat\Theta=\mathrm E[\Theta|X]$,误差$\tilde\Theta=\hat\Theta-\Theta$,有:

(a) 对任意$X=x$, 有$\mathrm E[\tilde\Theta|x]=\mathrm E[\hat\Theta-\Theta|x]=\mathrm E[\mathrm E[\Theta|x]-\Theta|x]=\mathrm E[\Theta|x]-\mathrm E[\Theta|x]=0$

(b) $\mathrm E[\tilde\Theta]=\mathrm E[\mathrm E[\tilde\Theta|X]]=\mathrm E[0]=0$

(c) $\mathrm E[\hat\Theta\tilde\Theta]=\mathrm E[\mathrm E[\hat\Theta\tilde\Theta|X]]=\mathrm E[\hat\Theta \mathrm E[\tilde\Theta|X]]=\mathrm E[\hat\Theta\cdot 0]=0$

(d) $\mathrm{cov}(\hat\Theta, \tilde\Theta)=\mathrm E[\hat\Theta\tilde\Theta]-\mathrm E[\hat\Theta]\mathrm E[\tilde\Theta]=0-\mathrm E[\hat\Theta]\cdot 0=0$

(e) $\mathrm{var}(\tilde\Theta)=\mathrm E[(\tilde\Theta-\mathrm E[\tilde\Theta])^2]=\mathrm E[\tilde\Theta^2]=\mathrm E[\mathrm E[\tilde\Theta^2|X]]=\mathrm E[\mathrm E[(\tilde\Theta-\mathrm E[\tilde\Theta|X])^2|X]]=\mathrm E[\mathrm{var}(\Theta|X)]$

(f) $\mathrm{var}(\hat\Theta)=\mathrm{var}(\mathrm E[\Theta|X])$

(g) $\mathrm{var}(\Theta)=\mathrm{var}(\hat\Theta+\tilde\Theta)=\mathrm{var}(\hat\Theta)+\mathrm{var}(\tilde\Theta)+2\mathrm{cov}(\hat\Theta, \tilde\Theta)=\mathrm{var}(\hat\Theta)+\mathrm{var}(\tilde\Theta)=\mathrm{var}(\mathrm E[\Theta|X])+\mathrm E[\mathrm{var}(\Theta|X)]$

 

5、线性最小均方估计

令$\hat\Theta=aX+b$,取$a$和$b$使得$\mathrm E[(\Theta-\hat\Theta)^2]$最小。

在$a$已经确定的前提下,要获得最小均方,有:

$b=\mathrm E[\Theta-aX]=\mathrm E[\Theta]-a\mathrm E[X]$

代入有

$\mathrm E[(\Theta-\hat\Theta)^2]=\mathrm E[(\Theta-aX-\mathrm E[\Theta]+a\mathrm E[X])^2]=\mathrm E[((\Theta-aX)-E(\Theta-aX))^2]=\mathrm{var}(\Theta-aX)$

$=\sigma_\Theta^2+a^2\sigma_X^2-2a\cdot \mathrm{cov}(\Theta,X)$

为求最值,其导数为0:

$2a\sigma_X-2\cdot \mathrm{cov}(\Theta,X)=0$

因此$a=\frac{\mathrm{cov}(\Theta,X)}{\sigma_X^2}=\rho\frac{\sigma_\Theta}{\sigma_X}$

代入有:

$\hat\Theta=aX+b=aX+\mathrm E[\Theta]-a\mathrm E[X]=\mathrm E[\Theta]+a(X-\mathrm E[X])=\mathrm E[\Theta]+\frac{\mathrm{cov}(\Theta,X)}{\sigma_X^2}(X-\mathrm E[X])$

均方估计误差$\mathrm E[(\Theta-\hat\Theta)^2]=\mathrm{var}(\Theta-aX)=\sigma_\Theta^2+a^2\sigma_X^2-2\mathrm{cov}(\Theta,X)=(1-\rho^2)\sigma_\theta^2$

 

6、多变量线性最小均方估计

上述都是单观察值的情形,对于多观察值$(X_1,X_2,\cdots,X_n)$,建立联合分布概率比较困难,或者概率分布表达式十分复杂,因此采用简化模型。一种常见的是线性最小均方估计

 

posted on 2017-03-27 12:36  米老虎M  阅读(1509)  评论(0编辑  收藏  举报

导航