(转)最大似然估计&贝叶斯估计
最大似然估计&贝叶斯估计
与传统计量模型相对的统计方法,存在
1)参数的解释不同:经典估计:待估参数具有确定值它的估计量才是随机的。如果估计量是无偏的,该估计量的期望等于那个确定的参数。bayes待估参数服从某种分布的随机变量。
2)利用的信息不同:经估:只利用样本信息,bayes要求事先提供一个参数的先验分布,即人们对有关参数的主观认识,是非样本信息。在参数估计中它们与样本信息一起被利用。
3)对随机误差项的要求不同,经典估计除了最大似然法在参数估计中不要求知道随机误差项的具体分布形式在假设检验与区间估计时是需要的。bayes要知道随机误差项的具体分布形式。
4)选择参数估计量的准则不同:经典估计以ols最大似然为准则求解参数估计量。bayes要构造一个损失函数并以损失函数最小化为准则求得参数估计量.
最大似然/ 贝叶斯分类
与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。否则,用平行六面体或最小距离分类效果会更好。
贝叶斯学习、最大似然度分类
【贝叶斯决策理论分析】 (1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法) (2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络) (3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计) (4)只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习) (5)如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。 问题:假设我们将根据特征矢量x提供的证据来分类某个物体,那么我们进行分类的标准是什么?decide wj, if(p(wj|x)>p(wi|x))(i不等于j)应用贝叶斯展开后可以得到p(x|wj)p(wj)>p(x|wi)p(wi)即或然率p(x|wj)/p(x|wi)>p(wi)/p(wj),决策规则就是似然率测试规则。 结论:对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。
【贝叶斯决策判据】
贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合: (1) 样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场合。 (2) 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点: 第一,要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2),或L类参考总体D1,D2,…,DL(如良好、满意、可以、不满意、不允许、……)。 第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。 对于两类故障诊断问题,就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0:的概率P(D2),它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1)>P(D2),则做出状态属于D1类的决策;反之,则做出状态属于D2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B,j明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,我们还要对系统状态进行状态检测,分析所观测到的信息。
最大似然估计&贝叶斯估计
概率空间的定义为(Omega, F, P)。在概率图模型中,一个问题是从已知的抽样中估计概率测度P。通常,有两种估计的方法:一是最大似然估计,一是贝叶斯估计。比如,投硬币的问题,30上,20下,就估计上的概率为3/5,这样的估计可以使似然度最大。而贝叶斯主义者认为还应该有更多的先验知识,比如我们早就知道这样的概率取值为1/2的概率相对最大,加入这样的知识后运用贝叶斯公式估计出来的概率就与最大似然法的结果不同。可以想像当先验知识可靠的时候,这样的估计会更准确的。 形式化一点,投硬币的概率空间为({正, 反}, {{正}, {反}},{(正, p), (反, 1-p)})。最大似然直接在这样的空间上估计p。而贝叶斯主义者将所有p决定的测度P看成是另一个Omega*,即概率本身是另一个概率空间中的一个采样。这另一个空间有自己的另一套测度P*。比如投币问题中Omega*是所有可能拿到的硬币,显然P*会告诉我们不同的硬币会有不同的p。如果这样的P*能够很好的得到,那么这样估计的概率会更有说服力。 那么我想做一些引申,既然一个正反面的概率测度P可以是一个更大的空间中依P*的采样,那么P*本身为什么不是从另一个更大空间中采样出来的呢。比如考虑温度、湿度、表面粗糙度、重力加速度等条件,会得到另一个概率空间Omega**,不同的环境条件决定了各个硬币正面概率的变化,故是这样的空间采样了P*。如果我们同样能够清晰描述P**,这显然也是合理且有说服力的。
最大似然的模型,可以叫做零阶模型(名字是我自己杜撰的),而贝叶斯方法的模型可以叫做一阶模型,用同样的方法可以产生二阶、三阶以及更高阶的模型。前提是我们能够清晰的描述这些概率分布是如何从另一个概率分布中采样出来的。 一个问题是,这样的过程可以无限进行吗,任何实际的概率空间都可以这样吗,这样的过程都合理且有意义吗。 我这里想说的是,至少有一种实际的测度,不需要再做这样的泛化了。这样的测度就是“宇宙的本质规律”,它赋予任何实在的事件以概率,而它不再是根据某个P*采样出来的了。解释有两点:第一,这些规律有唯一的取值,如果某个规律每次测量会变化,那么必有更高的不变的规律解释这样的变化,从而前者不是“本质规律”,后者才是;第二,如果非要假想有另一种赋值的宇宙规律,而由于我们只可能知道P下的一切,对这样的P*我们不可能有任何认识,所以这样的泛化是无意义的。 形而上学会讨论可能宇宙,会讨论或然宇宙中是否有必然存在物,会讨论宇宙的常数是被如何精巧的设定以至于很幸运地产生了现在的宇宙的样子。我想得出的结论是,除了现在的宇宙外我们一无所知,连宇宙之外的这个规律P*都不知道哪怕一点点,又如何谈论它和他所测量的空间Omega*的性质呢。在这个范围内的任何设定都不会与现实宇宙中的任何现象概率相关,在概率图中他们被我们“宇宙的本质规律”这个节点阻断了。可能有可能宇宙,但我们的宇宙与这个宇宙无关。