2.1 Binary variables 二元变量分布_PRML模式识别与机器学习读书笔记

Bernouli 分布

单变量x ∈{0, 1} ,x的概率由参数 μ，表示：

统一格式，有：

Bernouli 分布，期望与方差：

对于x的观察数据集，似然函数是 μ 的函数，假定 x_i之间独立，有：

从频率论角度，我们可以用最大化似然函数的方法(等价于最大化ln函数)来评估 μ 值，似然函数的自然对数有：

使得 lnp(D|μ)=0 ，得到μ 的最大似然估计：

也即是样本均值，x=1的个数为m，则:

对于仍硬币实验，总共仍了3次，且出现的都是正面，那么μ_ML= 1，预测以后都是扔出正面了，最大似然估计造成了over-fitting。

对于小样本集更容易引起该问题，后面会介绍引入μ 的先验概率有助于得到更合理的结果。

binomial distribution

我们来看N个样本中x=1 的个数m的分布情况，这就是binomial distribution二项式分布了:

期望和方差：

下图是m=10，μ=0.25的分布：

2.1.1 Beta distribution

gamma函数

首先来复习一下gamma函数:

有如下递归性质：

Γ(x+1)=xΓ(x)

由此容易得到：

Γ(n)=(n−1)!

我们在看一下Beta函数：

有：

Gamma函数在概率统计中使用非常广泛，在很多重要的分布，如t分布，χ2 分布，F 分布，Beta分布， Dirichlet 分布中都有它的影子。最直接的还是Gamma分布，由gamma函数变形：

得到Gamma分布最简单形式的密度函数：

做一个变换 x=βt，这样就得到Gamma分布普遍形式：

α ：shape parameter, 主要决定了分布曲线的形状;

β： rate parameter ，inverse scale parameter (1/β 称为scale parameter),主要决定曲线有多陡。

回到主题。前面我们说到Bernouli 分布在小数据集上使用最大似然法会出现overfitting，因此从贝叶斯理论出发，我们需要一个先验概率p(μ)。

如何选取先验概率的分布？似然函数与μ^x(1-μ)^1-x 成正比，我们希望先验也有类似的性质，这样后验概率（先验与似然函数的乘积）也会存在相似的结构，这种结构的先验概率称为共轭性：

Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki

在贝叶斯统计理论中，如果某个随机变量Θ的后验概率 p(θ|x)和气先验概率p(θ)属于同一个分布簇的，那么称p(θ|x)和p(θ)为共轭分布，同时，也称p(θ)为似然函数p(x|θ)的共轭先验。

这里我们采用beta 分布作为先验：

上式中的系数保证分布的归一化，即使的：

期望与方差：

beta分布取不同a，b值的分布：

μ 的后验分布由二项分布的似然函数2.9式与先验相乘并归一化，有下面的形式：

其中l=N-m，归一化可以参考2.13式得到系数，确切的概率：

这又是一个beta分布，a和b分别增加了m和n，而这个后验又可以作为后续猜测的先验，最后还是得到一个beta分布。这种方式称为sequential approach，下图是一个sequential Bayesian inference连续贝叶斯推理，前后都是beta分布；先验中a=b=2，只试验了一次，N=m=1,后验的beta参数：a=3,b=2:

而得到的分布我们可以看到会越来越sharp，因为观测的数据越多，不确定性也就是越来越小了。

如上面的beta分布图我们可以看到，a，b越大，图形越来越sharp，方差也就越来越小了。

假如我们要预测下一次实验的结果，也就是给定现有实验数据D，得到下次预测的分布：

结合2.15 beta分布的均值公式，得到:

可以看出，当m，n趋于无穷时，结果逼近最大似然结果，这也是一个普遍性质：贝叶斯与最大似然方法基于无限大数据集的结果是一致的。

posted @ 2014-02-15 09:49 嗯Jeffrey 阅读(2018) 评论(0) 编辑收藏举报

刷新页面返回顶部