深入理解线性模型(三)---基于贝叶斯的估计

更新时间:2019.10.31

1. 引言

  在前两篇,我们分别从损失函数以及似然函数的角度来窥探了线性模型。接下来,继续从一个新的角度---贝叶斯统计来讨论一下线性模型。脸红

2. 先验概率和后验概率

  谈起贝叶斯,就不得不提先验概率和后验概率。先验概率通常是通过历史或者经验得来的,而后验概率则是综合利用了先验信息和样本信息。因此,贝叶斯统计的出发点也是基于后验概率的。
  那么先验概率和后验概率实际上是怎样呢?以一个简单的例子为,由三家公司A、B、C合作生成一种产品,A公司承包50%的生产,B公司承包30%的生产,C公司承包剩下20%的生产。生产完后,三家公司把全部商品把包在一起,开开心心地去送货微笑。然而验货的时候发现出问题了,于是买家要求这几家公司作出赔偿。但是,各家公司都认为自己生产的产品没有任何的问题,各家公司的负责人争得面红耳赤吐血。最后,买家实在看不下去了,就跟他们说:“既然你们都觉得自家的生产没有问题,就按生产的份额来赔偿吧。”于是,A公司承担50%的责任,B公司承担30%的责任,C公司承担20%的责任。而这里“50%、30%、20%”也其实便是所谓的先验信息。
  而当我们知道A、B、C公司生产的不合格分别为P(A)、P(B)、P(C)时,对于追究责任时又会发生不同的变化。

\[P(A|不合格) = \frac {0.5P(A)}{0.5P(A)+0.3P(B)+0.2P(C)}\\ P(B|不合格) = \frac {0.3P(B)}{0.5P(A)+0.3P(B)+0.2P(C)}\\ P(C|不合格) = \frac {0.5P(C)}{0.5P(A)+0.3P(B)+0.2P(C)}\\ \]

  这里的\(P(A|不合格)、P(B|不合格)、P(C|不合格)\)就是所谓的后验概率,它通过综合利用先验信息和数据信息来决定A、B、C公司分别应该承担的责任。而实际上P(A)、P(B)、P(C)也是一种后验概率,也就是某一家公司生产的不合格率,写清晰一点就是\(P(不合格|A)、P(不合格|B)、P(不合格|C)\)
  于是便有了著名的贝叶斯公式:

\[P(A_1|B) = \frac{P(A_1)P(B|A_1)}{\sum_{i=1}^nP(A_i)P(B|A_i)} \]

  其中,\(P(B) = \sum_{i=1}^nP(A_i)P(B|A_i)\)为全概率公式

3. 基于贝叶斯统计的估计思想

  在贝叶斯统计中,认为一切参数为随机变量。因此,对于线性模型\(Y = X\beta +\varepsilon\),贝叶斯统计中同样也认为\(\beta\)是一个随机变量,因此也服从一个分布\(\beta \sim F(\beta)\),而这个\(F(\beta)\)也就是\(\beta\)的一个先验分布。当固定X的时候,就称\(F(\beta|X)\)\(\beta\)的后验分布,而这个分布综合了先验信息和数据信息。而贝叶斯统计的思路就是利用这个后验分布求后验均值/中位数等特征来作为\(\beta\)

  以后验均值为例:(对于后验密度函数\(f(\beta|X)\))

\[\hat \beta = E(\beta) = \int_{- \infty}^{+ \infty} \beta f(\beta|X) d\beta = \int_{- \infty}^{+ \infty} \beta \frac{f(\beta) f(X|\beta)}{f(X)} d\beta = \frac{1}{f(X)} \int_{- \infty}^{+ \infty} \beta f(\beta) f(X|\beta) d\beta \]

  其中,我们也把\(f(\beta) f(X|\beta)\)称为核。由上述可以看出\(f(\beta|X)\)应该是和\(f(\beta)f(X|\beta)\)成正比的,就差了一个常数,即有:

\[f(\beta|X) \propto f(\beta) f(X|\beta) = \pi(\beta)L(\beta, X) \]

  其中,\(\pi(\beta)\)指的是先验信息,\(f(X|\beta)\)就相当于似然函数,因为我们之前求似然函数的时候也是把\(\beta\)固定后写出的。

4. 线性模型再议

  这里只议论假设1的情况,其他的假设也是类似的。当我们的模型基于假设1的时候,即\(\varepsilon \sim N(0, \sigma^2I_n)\)

\[L(\beta, \sigma^2, Y, X) = (\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2} \]

  因此,有:
\begin{equation}
\begin{split}
f(\beta|(x,y)) & \propto \pi(\beta)(\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}\\
& \propto \pi(\beta) e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}
\end{split}
\end{equation}

  其实我们可以发现\(f(\beta|(x,y))\)也有\(\sum_{i=1}^n(y_i - x_i\beta)^2\)的部分,这正好也对应着损失函数,此外在这里的先验概率\(\pi(\beta)\)实际上是由我们来定的。

5. 先验信息的确定方法

5.1 无信息先验

  当我们对\(\beta\)一无所知的时候,那么我们便认为取任何值都是等可能的,此时的先验概率\(\pi(\beta) \propto k\),k为常数

5.2 共轭先验

  所谓共轭先验也就是取一个先验概率,乘以似然函数,不会改变似然的分布。例如正态分布和正态分布是共轭的,伽马分布和伽马分布是共轭的
  根据共轭先验,我们可以设\(\pi(\beta) \sim N(\beta, \sigma_{\beta}^2)\),即\(\pi(\beta) \propto e^{a\beta^2 + b\beta + c}\),之后只要对\(\pi(\beta)L(\beta, \sigma^2, Y, X)\)进行配平方,配成\(e^{-\frac{(x - \mu)^2}{2\sigma^2}}\)的形式,里面的\(\mu\)就是我们要求的估计
  而如果对\(\sigma^2\)来说,
\begin{equation}
\begin{split}
f(\sigma^2|X,Y) & \propto \pi(\sigma^2)L(\beta, \sigma^2, Y, X)\\
& \propto \pi(\sigma^2) (\sigma^2 )^{ \frac{-n}{2}} e^{\frac{-k}{ \sigma^2}}
\end{split}
\end{equation}

  其中,\(k= \frac{1}{2} \sum_{i=1}^n(y_i - x_i\beta)^2\)
  可以看出似然函数应该是一个伽马分布(\(p(x) = \frac {\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha - 1}e^{\alpha x}\)),那么根据共轭先验\(\pi(\sigma)\)应该也是一个伽马分布。

  • tip:除了这两种方法之后,还有一种信息最大的方法,因为没怎么了解过,在这里就不谈了。吐血

6. 结语

  至此,我们终于完成了分别从损失函数、似然函数和贝叶斯这三个角度讨论线性模型的伟业微笑。实际上,这三种角度其实是模型的三种不同的范式,有许多问题都可以分别从这三个框架来进行研究。

posted @ 2019-10-31 16:23  jianli-Alex  阅读(1581)  评论(0编辑  收藏  举报