代码改变世界

【bayes】贝叶斯学派和频率学派

2013-04-08 22:34  Loull  阅读(7729)  评论(0编辑  收藏  举报

一、

“探测仪,如果我问一个贝叶斯学派的统计学家如果……”
“[掷]我是一个中微子探测仪,不是迷宫守卫。老实说,你是不是脑子坏掉了。”
“[掷]...yes”

迷宫守卫的梗:
说迷宫里有2条路,分别通向目的地和陷阱,路口各有一个守卫,一个只说真话一个只说假话,他们都知道路后面是什么以及彼此说话的真假,这时你只能选择其中一个人,问一个问题,如何确保走对路。

http://www.xkcd.com/1132/

================================================

二、频率学派(Frequentists) 贝叶斯学派(Bayesians)

拉普拉斯说: “概率论只不过是把常识用数学公式表达了出来.” 我们的数学模型都不过是对客观事件规律的一个总结. 贝叶斯定理正是如此.

      既然提到贝叶斯定理,就不得不提到频率学派(Frequentists)和贝叶斯学派(Bayesians).频率学派最重要的就是不断的重复(越多越 好, 趋近于无限);而贝叶斯学派讲的都是抽样和分布. 虽然贝叶斯学派的兴起才短短二十多年,但是从那时起两个理论派别间从来没有停止过争论.下面举几个频率学派与贝叶斯学派之间思想不一样的地方.
  • 频率学派认为抽样是无限的.在无限次抽样当中,对于决策的规则可以很精确;而贝叶斯学派则认为世界无时无刻不在改变,未知的变量和事件都有一定的概率。这种概率会随时改变这个世界的状态(前面提到的后验概率是先验概率的修正)。
  • 频率学派认为模型的参数是固定的, 一个模型在无数次的抽样过后, 所有的参数都应该是一样的; 而贝叶斯学派则认为数据应该是固定的. 我们的规律从我们对这个世界的观察和认识中得来. 我们看到的即是真实的, 正确的. 应该从观测的事物来估计参数.
  • 频率学派认为任何模型都不存在先验; 而先验在贝叶斯学派当中有着重要的作用.
  • 频率学派主张的是一种评价范式. 它没有先验, 更加的客观. 贝叶斯学派主张的是一种模型方法. 通过建立未知参数的模型. 在没有观测到样本之前, 一切参数都是不确定的. 使用观测的样本值来估计参数. 得到的参数带入模型使当前模型最佳的拟合观测到的数据.

https://blog-charliemorning.rhcloud.com/talk-about-navie-bayes/

三、贝叶斯统计

贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布

贝叶斯学派与频率学派争论的焦点在于先验分布。贝叶斯学派认为先验分布可以是主观的,它不需要有频率解释。而频率学派则认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。

第一,频率论先建立无效模型, 然后计算在此无效模型的前提下得到从实际数据中得来的参数的可能性,假如这个可能性很小,我们就认为无效模型不成立,从而选择备择模型;而贝叶斯论关注于 在当前数据的前提下,某个模型成立的概率,得到的是具体的概率值,而该概率值不用于对某个假说的判断。

第二,频率论对概率的解释是:一个事件在一段较长的时间内发生的频率;贝叶斯论对概率的解释是人们对某事件是否发生的认可程度。

第三,贝叶斯论善于利用过去的知识和抽样数据,而频率论仅仅利用抽样数据。因此贝叶斯推论中前一次得到的后验概率分布可以作为后一次的先验概率

第四,对置信区间的不同解释:频率论中95%置信区间解释为:100次抽样计算得到的100个置信区间中有95个包含了总体参数,5个没有,而不能解释成在一次抽样中有95%的可能性包含总体参数。这是由于经典统计中总体的参数是被当作一个恒定值的,不能从概率的角度解释; 贝叶斯论的置信区间恰好可以解释成概率的形式,因为贝叶斯分析中,总体参数是个随机变量,而非恒定值。

MCMC(Markov Chain Monte Carlo)方法提供了从后验分布直接抽样的途径,为贝叶斯统计方法的实际应用带来了革命性的突破。

http://blog.sina.com.cn/s/blog_60864c1b0100dos3.html

=============================================

四、辩论

发信人: dychdych (sir), 信区: Statistics
标 题: Frequentist and Bayesian
发信站: Unknown Space - 未名空间 (Fri Nov 14 19:48:02 2003) WWW-POST

有人学了多年统计说不清楚频率学派与贝叶斯学派的区别,什么主观对客观啦,什么似然
函数对后验概率啦,那些都是现象,不是本质。两者本质上的区别是:频率学派把未知参
数看作普通变量,把样本看作随机变量;而贝叶斯学派把一切变量看作随机变量。
数学与统计学最大的区别在于数学研究的是变量,而统计学研究的是随机变量。对统计学
家来说,把一切变量看作随机变量是更自然的事。
如果说贝叶斯学派是纯粹的统计学家,那么频率学派就是数学统计学家,尚处在从数学向
统计学过渡的中间阶段,好比蝌蚪。既然你已经从鱼变成了青蛙,为什么还要保留尾巴呢

如果一切变量都是随机变量的话,那么频率学派的很多概念就失去了意义。比如无偏估计

若E(T)=t则说统计量T是未知参数t的unbiased estimator。如果参数t是随机变量,那个
等号就毫无意义,因为统计量T的期望E(T)是一个数量,它不可能等于一个随机变量,除
了trivial的情况下。
另外,在对置信区间的含义作解释时,也不用像频率学派那样费劲。什么未知参数是未知
而固定的值,而区间是随机区间,因为区间的端点是统计量,因而也是随机变量,每次随
着观测样本的不同,我们所得到的区间估计也不一样,当试验次数足够大时,大约有95%
的区间包含那个固定的未知参数。多么麻烦!为了能够自圆其说而绕来绕去。
历史上贝叶斯学派一直沉寂主要原因是贝叶斯学派要计算的后验概率非常烦琐,推导来推
导去,最后很多结果没有显式表示。在计算机高度发展的今天以及各种蒙特卡罗数值算法
的引入与普及,贝叶斯学派终将占据统治地位,那时的统计学将是纯粹的统计学。

发信人: yeren (野人), 信区: Statistics
标 题: Re: Frequentist and Bayesian
发信站: Unknown Space - 未名空间 (Fri Nov 14 22:32:55 2003) WWW-POST

呵呵,我不同意你的观点。
先申明我也是Bayesian(or Empirical Bayesian).

频率学派与贝叶斯学派的区别主要是是否允许先验概率分布的使用。
频率学派并不把所有参数看作普通变量(我想应该是known or unknown fixed
variable,姑且用你的名词),比如hierarchical model和random effect model。
而贝叶斯学派在先验分布中也有普通变量,比如hyperprior parameter。

你对无偏估计的论断我也不同意,因为你的定义本身不合理。如果t是随机变量,
你可以用E[T|t]=t,或者在由边际分布得到E[T]=m,一个独立于t的量。

贝叶斯的好处在于贝叶斯的推断问题相对简单,点估计,区间估计和假设检验
全部可以由后验分布得到,尤其是计算机技术的发展和MCMC方法的出现使得
非共轭后验分布的使用和计算成为可能。而且它的理论架构天然符合人渐进
的认识规律。我今天早上刚好还想到可以用“时时勤拂拭,莫使惹尘埃”来
形容贝叶斯学派,恰不恰当大家看看。

但是贝叶斯(Full Bayesian)的问题在于,无信息先验已经被证明是不存在的。所有的先

在参数变换后都不可避免的带有主观性。而频率学派用最大似然估计(MLE)则没有这个
问题。频率学派的困难在于如何利用前人已有经验和枢轴统计量的构造。

几十年来两个学派争论不休,都曾经相互断言对方的必将灭亡,但目前都还看不到
迹象。而这期间两者的折衷经验贝叶斯倒发展起来了。经验贝叶斯与传统贝叶斯的
不同是,它用数据来估计(marginal maximum likelihood estimator,MMLE)先验
分布中的参数。因此它为一些频率学派学者所接受。

除了贝叶斯学派和频率学派,还有似然学派。似然学派主张用MLE和LR(likelihood
ratio)
作为推断基础,废除广为使用的p-value。但是似然学派方法应用太难,好象目前看不到
什么曙光(对似然学派我也太清楚,欢迎批驳)。

http://aimit.blog.edu.cn/2009/230160.html

=================================================

五、讨论

http://www.douban.com/group/topic/16719644/

http://www.douban.com/group/topic/16951058/

往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这个和量子力学某些观点不谋而合。
往小处说,频率派最常关心的是似然函数而贝叶斯派最常关心的是后验分布。我们会发现,后验分布其实就是似然函数乘以先验分布再 normalize一下使其积分到1。因此两者的很多方法都是相通的。

贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法 (如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比 贝叶斯方法更受到信任。