PRML-1.2.3 贝叶斯概率

            (classical)(frequentist)(Bayesian)
            
      使Cox1946Jaynes,2003Ramsey,1931;Good,1950;Savage,1961;deFinetti,1970;Lindley,1982      使Cox1946Jaynes,2003Ramsey,1931;Good,1950;Savage,1961;deFinetti,1970;Lindley,1982
      1.1线tnw使w
线wwp(w)D=t1,...,tNp(D|w)1.2.5
p(w|D)=p(D|w)p(w)p(D)1.43
      p(w|D)Dw
      p(D|w)Dw(likelihood function)www1
      
posteriro likelihood ×prior
w1.4311.43w
p(D)=p(D|w)p(w)dw
1.2,
      p(D|w)使wDDw
      使(maximum likelihood)w使p(D|w)w使w(error function)
      (bootstrap)(Efron, 1979; Hastie et al., 2001)使NX=x1,...,xNXNXBXXBXXBLLNX
      31
      便(noninformative)
      
      1811使
      (variational Bayes)(expectation propagation)(Blei et al., 2003)


无论是频率派还是贝叶斯派,似然函数都起着重要的作用,然而对似然函数使用方式的不同是两者最本质的区别。以上一节介绍的曲线拟合为例,频率派认为参数w固定而数据是随机产生的,我们通过最大化似然函数的思想利用观测数据去反推这个值。而贝叶斯派则认为数据集是确定的,模型参数w是随机的,我们通过似然函数将先验修改为后验。频率派利用交叉验证来选择合适的模型,但贝叶斯中先验的选择通常出于数学上的方便,而不是是否符合直觉。
贝叶斯一直面临着两个难题:

合理的推断依赖于合适的先验,如何选取合适的先验却一直被频率派诟病
一个完整的贝叶斯推断过程(比如作预测或比较模型)通常包含参数空间的积分,带来高昂的计算代价
近几十年来随着计算机运算速度的提高,后验概率的计算逐渐变得可行,目前可行的方法有两种:

基于采样的方法 主要代表是MCMC,Gibbs采样。这类方法的优点是精度高,适用于任何形式的后验估计;缺点是效率低,只适用于小规模数据。
基于优化的方法 主要代表是变分贝叶斯。这类方法的优点是速度快,适用于大规模数据;缺点是牺牲了精度以换取速度的提升。

posted @   筷点雪糕侠  阅读(54)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~
点击右上角即可分享
微信分享提示