PRML-1.2概率论,贝叶斯定理

1.联合概率,边缘概率,条件概率

\(假设有两个离散随机变量X,Y,X有5种取值,Y有3种取值,做N次试验,其中我们 对X和Y 都进⾏取样,把X = x_i且Y = y_j的试验的数量记作n_{ij}。并且,把X取值x_i(与Y 的取 值⽆关)的试验的数量记作c_i,类似地,把Y 取值y_j的试验的数量记作r_j,如图\)

\(联合概率p(X=x_i,Y=y_j),称为联合概率\)(joint probability)\(,其中i = 1, . . . , M,j = 1, . . . , L\)
\(p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\)
\(边缘概率,p(X=x_i)=\frac{c_j}{N},称为边缘概率\)marginal probability
\(p(X=x_i)=\frac{c_j}{N}=\sum\limits_{j=1}^{L}p(X=x_i,Y=y_j)\)
\(条件概率\)
\(如果我们只考虑那些X=x_i的实例,那么这些实例中Y = y_j的实例所占的⽐例被写成p(Y = y_j | X = x_i),被称为给定X = x_i的Y = y_j的条件概率\)(conditional probability)
\(p(Y = y_j | X = x_i)=\frac{n_{ij}}{c_i}\)

2.加法规则 Sum Rule

\(p(X=x_i)=\frac{c_j}{N}=\sum\limits_{j=1}^{L}p(X=x_i,Y=y_j)\)
\(一般简写为\)
\(p(X)=\sum\limits_Yp(X,Y)-离散型\)
\(p(X)=\int p(X,Y)dY-连续型\)

3.乘法规则 Product Rule

\(p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\frac{c_i}{N}=p(Y = y_j | X = x_i)p(X=x_i)\)
\(一般简写为\)
\(p(X,Y)=p(Y|X)p(X)\)
\(p(X,Y)是联合概率,p(Y|X)是条件概率,p(X)是边缘概率\)

举个例子

4.贝叶斯定理(Bayes' theorem)

\(p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\)
贝叶斯定理(Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊
贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰:
\(p(X) = \sum\limits_Yp(X|Y)p(Y)-离散型\)
\(p(X)=\int p(X,Y)dY-连续型-\color{red}{这里要做积分,也就是贝叶斯公式不太好求的地方}\)
\(p(X)=\int p(X|Y)p(Y)dY - 也可以这么写,在1.2.3章节贝叶斯定理中用到\)
我们可以把贝叶斯定理的分母看做归⼀化常数,⽤来确保公式(1.12)左侧的条件概率对于所有的Y 的取值之和为1。

5.相互独立

\(如果两个变量的联合分布可以分解成两个边缘分布的乘积,即p(X, Y ) = p(X)p(Y ),那么我们说X和Y相互独⽴(independent)。根据乘积规则,我们可以得到p(Y | X) = p(Y ),因此对于给定X的条件下的Y 的条件分布实际上独⽴于X的值。\)

6.案例

\(有两个盒子(B),一个是红色(r),一个是蓝色(b),盒子中有两种水果(F),一种是苹果(a),一种是橘子(o),现在有40%的概率抽到红盒子,60%概率抽到蓝盒子,红盒子中有2个苹果,6个橘子,蓝盒子中有3个苹果,1个橘子\)
\(假设现在拿到了橘子,那么抽到蓝色盒子的概率有多大?\)
\(p(B=r)=\frac{4}{10}\)
\(p(B=b)=\frac{6}{10}\)
\(四个条件概率\)
\(p(F=a|B=r)=\frac{1}{4}\)
\(p(F=o|B=r)=\frac{3}{4}\)
\(p(F=a|B=b)=\frac{3}{4}\)
\(p(F=o|B=b)=\frac{1}{4}\)
\(注意,这些概率都是归一化的,有\)
\(p(F=a|B=r) +p(F=o|B=r)=1\)
\(p(F=a|B=b) +p(F=o|B=b)=1\)
\(利用加法规则计算整体概率\)
\(p(F=a)=p(F=a|B=r)p(B=r)+p(F=a|B=b)p(B=b) = 1/4 *4/10 +3/4 *6/10 =11/20\)
\(p(F=0)=1-11/20=9/20\)
\(利用贝叶斯定理计算条件概率\)
\(p(B=r|F=o)=\frac{p(F=o|B=r)p(B=r)}{p(F=o)}=3/4* 4/10 * 20/9 = 2/3\)
\(其中\color{red}{p(B)代表先验,p(B|F)是后验概率}\)
\(从机器学习的角度看F是样本,B就是模型参数\)
\(贝叶斯学派的观点就是根据贝叶斯定理来计算p(B|F),而频率派的观点就是用足够多的样本来接近p(B|F)\)

posted @ 2022-02-12 23:36  筷点雪糕侠  阅读(112)  评论(0编辑  收藏  举报