三、统计决策与贝叶斯估计
1. 统计决策的基本概念
20世纪40年代,Wald提出了把统计推断问题看成是人与自然的一种博弈过程,由此建立了统计决策理论。
统计决策问题的三个要素
在前几章讲的统计问题,都可以归结为一个统计决策问题,也就是建立所谓的统计决策函数,统计决策问题由三个因素组成:
样本空间和分布族
样本空间:设样本 (X1、.. 、Xn) 来自总体 F(x, θ), θ 未知,则样本所有可能值组成的集合称为样本空间,记为 X 。
分布族:F* 为样本的概率分布族,F* = 样本联合分布。
决策空间
决策:对每个统计问题的具体回答,就称为一个决策。例如,参数的点估计,每一个估计值就是一个决策。
决策空间:一个统计问题中,可能选取得全部决策组成的集合为决策空间,记为 A 。
损失函数
通常情况下,做任何决策以后,总会有某种后果, 由此可以带来某种收益和损失.为了以数量化的方式描述这种收益和损失,为此需要引入损失函数。
常见的损失函数
1. 线性损失函数
2.平方损失函数
3.凸损失函数
4.多元二次损失函数
2.统计决策函数及其风险函数
给定统计决策问题的三要素后,在损失小的前提下,选择一个好决策函数就成为核心问题。
统计决策函数
定义在样本空间 X 上,取值于决策空间 内的函数 d(x),称为统计决策函数,简称为决策函数。
注: 决策函数其实就是决策问题的一个“行动方案”。对于统计问题而言,决策函数为统计量。
由于损失函数 L 与决策函数 d(x) 有关,而决策函数是随机变量,因而损失函数也为随机变量。这样损失函数与样本X的取值有关,因而需要构造一个更好的指标来衡量决策函数的好坏,这就是风险函数。
风险函数
设样本空间和分布族分别为 Χ 和 F* ,决策空间为 A ,损失函数为 L(θ , d) ,决策函数为 d (X), 则参数 θ 的决策函数 d (X) 引起的风险函数为 R (θ , d) 定义为:
R(θ, d) = Eθ ( L( θ , d(X) ) ) = Eθ ( L( θ , d(X1、.. 、Xn) ) )
注: 由定义可以看到,风险函数是决策d的平均损失。从定义可以看到,风险越小,决策越好,由此可以给出判断决策函数优良性准则。
优良性准则
设 d1(X) 和 d2(X) 为统计决策问题的两个决策函数,若其风险函数满足不等式 R(θ, d1) ≤ R(θ, d2),且存在一些 θ 使得不等式严格成立,即 R(θ, d1) < R(θ, d2),则称决策函数 d1 一致优于 d2 。如果等式成立,即R(θ, d1) = R(θ, d2),则二者等价。
一致最小风险决策函数
pass
注: 从上述定义可以看到,决策函数的优良性与损失函数有关,因而优良性会因损失函数而变化。
3. 贝叶斯估计
上面提出用风险函数衡量决策函数的好坏,但是由于风险函数为二元函数,很难进行全面比较。贝叶斯通过引入先验分布,给出了整体比较的指标。
先验分布与后验分布
先验信息
在抽取样本之前,人们对所要估计的未知参数所了解的信息,通常称为先验信息。
在统计学中,先验信息可以更好的帮助人们解决统计决策问题. 贝叶斯将此思想应用于统计决策中,形成了完整的贝叶斯统计方法。
先验分布
对未知参数 θ 的先验信息用一个分布形式 π(θ) 来表示,此分布 π(θ) 称为未知参数 θ 的先验分布。
后验分布
在抽取样本之前,人们对未知参数有个了解, 即先验分布。抽取样本之后,由于样本中包含未知参数的信息,而这些关于未知参数新的信息可以帮助人们修正抽样之前的先验信息。
pass
加入新的信息以后, 对原有分布进行修正,由此可见,后验分布综合用运了先验分布与样本信息。
共轭先验分布
为了使得后验分布计算简单,为此引入共轭先验分布。
共轭分布族
设总体 X 的分布密度为 p (x | θ), F* 为 θ 的一个分布族,π(θ) 为 θ 的任意一个先验分布,π(θ) ∈ F* , 若对样本的任意观测值 x , θ 的后验分布 h(θ | x) ∈ F* ,则称 F* 是关于分布密度 p (x | θ) 的共轭先验分布族,简称共轭分布族。
注: 共轭分布族总是针对分布中的某个参数而言的。
后验分布核
pass
可以看出,m(x) 不依赖于参数q,因而参数 θ 的后验分布可以写为如下等价形式:h(θ | x) ∝ q (x | θ) π(θ),则 q (x | θ) π(θ) 为后验分布 h(θ | x) 的核,符号 ∝ 表示左右两边相差一个不依赖 θ 的常数因子。
共轭先验分布族的构造方法
共轭先验分布族共有两种构造方法:
第一种方法:首先计算似然函数 q(x|θ),根据似然函数所含 θ 的因式情况,选取与似然函数具有相同核的分布作为先验分布。
第二种方法: 设总体 X 的分布密度为 p(x|θ),统计量 T(X) = T(X1、.. 、Xn) 是参数 θ 的充分统计量,则有:
设 f (θ) 为任一固定的函数,满足条件:
(1)f (θ) ≥ 0,θ ∈ Θ
(2)...
则 pass
贝叶斯风险
由前面序号2 的内容可知,给定损失函数以后,风险函数定义为 :
R(θ, d) = Eθ ( L( θ , d(X) ) ) = ∫X L( θ , d(X) ) q(x|θ) dx
此积分仍为 θ 的函数,在给定θ 的先验分布 π(θ) 时,定义:
RB(d) = Eθ ( R(θ, d) ) = ∫Θ R(θ, d) π(θ) dθ
为决策函数 d 在给定先验分布 π(θ) 下的贝叶斯风险,简称为d的贝叶斯风险。
贝叶斯风险的计算
当 X 与 θ 都是连续型随机变量时,贝叶斯风险为:
RB(d) = Eθ ( R(θ, d) ) = ∫Θ R(θ, d) π(θ) dθ
= ∫Θ ∫X L( θ , d(X) ) q(x|θ) π(θ) dxdθ
= ∫Θ ∫X L( θ , d(X) ) h(θ|x) m(x) dxdθ
= ∫X m(x) { ∫Θ L( θ , d(X) ) h(θ|x) dθ } dx
当 X 与 θ 都是离散型随机变量时,贝叶斯风险为:
RB(d) = Eθ ( R(θ, d) )
= ∑X m(x) { ∑θ L( θ , d(X) ) h(θ|x) }
注: 由上述计算可以看出,贝叶斯风险为计算两次期望值得到,即:
RB(d) = Eθ ( E( L( θ , d(X) ) ) )
此时风险大小只与决策函数 d 有关,而不再依赖参数 θ, 因此以此来衡量决策函数优良性更合理。
贝叶斯估计
贝叶斯点估计
若总体 X 的分布函数 F(x,θ) 中参数 θ 为随机变量,π(θ) 为 θ 的先验分布,若决策函数类 D 中存在一个决策函数使得对决策函数类中的任一决策函数均有
RB(d*) = inf RB(d), d ∈ D,
则称 d*(X)为参数 θ 的贝叶斯估计量。
注: 1、贝叶斯估计是使贝叶斯风险达到最小的决策函数;2、不同的先验分布,对应不同的贝叶斯估计。
贝叶斯点估计的计算
1. 平方损失下的贝叶斯估计
设 θ 的先验分布为 π(θ) 和损失函数为 L( θ , d ) =(θ - d)2 ,则 θ 的贝叶斯估计为
d*(x) = E (θ | X = x) = ∫Θ θ h(θ|x) dθ
其中 h (θ |x ) 为参数 θ 的后验分布。
2. 加权平方损失下的贝叶斯估计
设 θ 的先验分布为 π(θ) 和损失函数为 L( θ , d ) = λ(θ)(θ - d)2 ,则 θ 的贝叶斯估计为
d*(x) = pass
3. 二次损失函数下的贝叶斯估计
pass
4. 绝对值损失下的贝叶斯估计
pass
5. 线性损失下的贝叶斯估计
pass
后验风险
设 d=d(x) 为决策函数类 D 中任一决策函数,损失函数为 L( θ , d(X) ) ,,则 L( θ , d(X) ) 对后验分布 h(θ|x) 的数学期望称为后验风险,记为
R(d | x) = E ( L( θ , d(X) ) | x ) = pass
注: 如果存在一个决策函数,使得R(d** | x) = inf R(d | x) , d ∈ D,则称此决策为后验风险准则下的最优决策函数,或称为贝叶斯(后验型)决策函数。
如果决策函数使得贝叶斯风险最小, 此决策函数也使得后验风险最小,反之,也成立。
贝叶斯估计的误差
pass
贝叶斯区间估计
pass
4. minimax估计
略
突然有一天假期结束,时来运转,人生才是真正开始了。