贝叶斯决策论是贝叶斯框架下实施决策的基本方法。机器学习中密度估计方法分为两大类:参数化方法和非参数化方法。参数化方法:假定数据具有某种确定概率分布形式,再基于训练数据对概率分布的参数进行估计;非参数化方法:用小区域内的样本所占比例代替点密度估计。密度估计框架如下图:

                                                               

   1、贝叶斯规则

    本文需要基础知识:条件概率分布、条件独立、联合分布、期望、方差。高数全部还给老师的朋友请移步博主文件下载 3-MLE & MAP补充统计基础概念。

    贝叶斯链式规则:$P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X)$,贝叶斯规则:$P(X|Y)=\frac{P(Y|X)\ P(X)}{P(Y)}$。其貌不扬的贝叶斯规则构成了整个机器学习的重要统计理论基础,其中尤为重要的是两种参数估计方法 MLE & MAP。为了贴近机器学习参数估计问题一致,贝叶斯规则重写为

其中D为数据集,$\theta$为模型参数;由于$P(D)$与待估计参数$theta$无关,省略不影响优化结果。(一定记清楚后验分布是$\theta|D$

  •     最大似然估计(MLE):$\theta_{MLE}=arg\max\limits_{\theta} P(D|\theta)$
  •     最大后验估计(MAP):$\theta_{MAP}=arg\max\limits_{\theta} P(\theta|D)=arg\max\limits_{\theta} P(D|\theta)P(\theta)$

先验的获取途径分为三类:

     (1) 无信息先验:均匀分布 or 近似均匀分布

     (2) 共轭先验:先验与后验分布具有同样形式

     (3) 其他:专家知识(哲学系方法) or 简单易算形式 (工程系方法)

   2、伯努利分布的参数估计

    硬币实验:假设共抛$N$次硬币,其中有$N_+$次硬币正面朝上,则下次抛硬币正面朝上的概率是多少?$\frac{N_+}{N}$。其实聪明的人脑快速地对下次正面朝上的概率进行了最大似然估计!!!设数据集$D=\{x_1,x_2,\cdots,x_N\}$且为独立同分布的(i.i.d),每次抛硬币正面朝上的概率为$P(x=1)=\theta$,反面朝上的概率为$P(x=0)=1-\theta$,则由伯努利分布可知$P(x)=\theta^x(1-\theta)^{1-x}$。

        MLE:

    似然函数:    $P(D|\theta)=\prod\limits_{n=1}^N \theta^x_n (1-\theta)^{1-x_n}=\theta^{N_+}(1-\theta)^{N-N_+}$

    对数化:      $\ln P(D|\theta)= {N_+}\ln \theta + {N-N_+}\ln (1-\theta)$

    求导:        $\frac{\partial\ \ln P(D|\theta)}{\partial\ \theta}=\frac{N_+}{\theta}-\frac{N-N_+}{1-\theta}=0 $

    MLE结果:     $\theta_{ML}=\frac{N_+}{N}$

 上述最大似然估计结果验证了人脑的计算过程其实是进行了最大似然估计。

       问题:如果抛掷5枚硬币全部为正面,MLE的结果是$P(正面)=1$。MLE的结果正确吗?显然是不合乎常理的!为什么?过拟合!因为我们大脑中有一个先验:正面朝上的概率应该在0.5左右。                                                                                                                                                                

        为了后验能是闭合形式,选择二项式分布的共轭先验beta分布:$\theta\sim beta(a,b)$, 即 $P(\theta|a,b)=\frac{\gamma(a+b)}{\Gamma(a)+\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}$

    MAP:   

$$P(\theta|D)\propto P(D|\theta) P(\theta|a,b)\propto\theta^{N_+ +a-1}(1-\theta)^{N_-+b-1}\quad\Rightarrow\quad P(\theta|D)=\frac{\gamma(a+b+N)}{\Gamma(a+N_-+)+\Gamma(b+N_+)} \theta^{N_+ +a-1}(1-\theta)^{N_-+b-1}$$

其中$N_-=N-N_+$,$P(D)$是归一化因子与$\theta$无关不影响参数估计结果。则其后验分布也是beta分布:$\theta|D \  \sim beta(a+N_+,b+N_-)$。

    对数化:     $ \ln P(\theta|D) \propto (N_++a-1)\ln\theta + (N_-+b-1)\ln(1-\theta)$ 

    MAP结果:  $\theta_{MAP}=\frac{N_++a}{N+a+b}$

    根据最大后验估计结果可知:beta先验信息等价于增加了a+b次硬币投掷,其中有a次正面朝上。

    结论: (1)当投掷次数N趋于无穷大时,MLE 和 MAP 结果相同:$\lim\limits_{N \rightarrow \infty}\theta_{MAP}=\theta_{ML}$

           (2)最大后验估计值始终在先验值和最大似然估计值之间:$\theta_{MAP}\in [\theta_{prior},\theta_{MAP}]$

           (3)后验方差$\leq$先验方差:$var_\theta[\theta]=E_D[var_\theta[\theta|D]]+var_D[E_\theta[\theta|D]]$

    问题:何时先验更能体现出重要性?小样本数据

   3、高斯分布的参数估计

    高斯分布: $P(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp^{-\frac{(x-\mu)^2}{2\sigma^2}}=N(\mu,\sigma^2)$

    MLE:

$$\min\limits_{\mu,\sigma}-\ln P(D|\mu,\sigma^2)=\min\limits_{\mu,\sigma}-\sum\limits_{n=1}^N \ln P(x|\mu,\sigma^2)=\min\limits_{\mu,\sigma}\sum\limits_{n=1}^N \frac{1}{2}\ln 2\pi + \ln \sigma +\frac{(x_n-\mu)^2}{2\sigma^2}$$

    高斯分布均值变量和方差变量的MLE结果: $$\mu_{ML}=\frac{1}{N}\sum\limits_{n=1}^N x_n,\quad \sigma^2_{ML}=\frac{1}{N}\sum\limits_{n=1}^N (x_n-\mu_{ML})^2$$

    MAP:

    一维高斯分布的共轭先验:

  •     均值变量:高斯分布  $P(\mu|\eta,\lambda^2)=\frac{1}{\sqrt{2\pi\lambda^2}}\exp^{-\frac{(\mu-\lambda)^2}{2\lambda^2}}$

        负对数化: $arg \max\limits_\mu P(\mu|D) = arg \min\limits_\mu -\ln P(\mu|D)$

         $$-\ln P(\mu|D) \propto -\ln (P(D|\mu,\sigma^2)P(\mu|\eta,\lambda^2)) \propto \sum\limits_{n=1}^N \frac{(x_n-\mu)^2}{2\sigma^2}+\frac{(\mu-\eta)^2}{2\lambda^2}$$

        高斯分布均值变量的MAP估计:$\mu_{MAP} = \frac{\frac{\sum_n x_n}{\sigma^2}+\frac{\eta}{\lambda^2}}{\frac{N}{\sigma^2}+\frac{1}{\lambda^2}}$

  •     方差变量倒数$\gamma=\frac{1}{\sigma^2}$:Gama 分布  $Gama(\gamma|a,b)=\frac{1}{\Gamma(a)b^a\gamma^{a-1}\exp^{-b\gamma}}$

        负对数化:  $-\ln P(\gamma|D)\propto -(a+\frac{N}{2}-1)\ln \gamma+ b\gamma+\frac{\gamma}{2}\sum\limits_{n=1}^N(x_n-\mu)^2$

        求解:      $\gamma = \frac{a+\frac{N}{2}-1}{b+\frac{1}{2}\sum\limits_{n=1}^N(x_n-\mu)^2}$

        高斯分布均值变量的MAP估计:$\sigma^2_{MAP}=\frac{b+\frac{1}{2}\sum\limits_n(x_n-\mu)^2}{a+\frac{N}{2}-1}$

4、Sequential estimation or Online learning

    以高斯分布均值变量的MLE为例,在有新样本时MLE估计$\mu_{ML}=\frac{1}{N}\sum\limits_{n=1}^N x_n$都需要计算所有样本均值。通过观察可以得到:

            

 

posted on 2017-08-29 14:17  李明晗33  阅读(446)  评论(0编辑  收藏  举报