概率图模型:原理与技术-2.1概率论
一些概念
条件概率
链式法则
贝叶斯定理
多项式分布,伯努利分布
一些记号的说明
\(P(X=x)缩写成P(x)\)
\(\sum_x 表示X的所有可能取值之和 \sum_x P(x)=1\)
\(联合概率P(X=x,Y=y)写成P(x,y)\)
边缘分布
\(P(x)就是随机变量X的边缘分布\)
联合分布
\(随机变量集\mathcal{X}=\{X_1,X_2,...,X_n\}上的联合分布由P(X_1,X_2,...,X_n)表示\)
联合分布于边缘分布的关系
\(P(x)=\sum_xP(x,y)\)
独立性
条件独立性 CPD conditional probability distribution -重点!!!
这是一个简单的概率图,给定G的情况下,M和S是条件独立的,注意(M,S并不一定是独立的)
还有一个案例是,起晚了(C),迟到了(L),扣工资了(K),直观上看,如果扣工资了,那么很可能是起晚了,但是如果我们观察了你迟到了,那么扣工资和起晚了,这两个时间是条件独立的,概率图模型如下
这两个概率图模型,你可以理解成,观察节点把,另外两个节点阻断了,就没有相关性了
边缘独立性
\(val(X)指的是X的所有可能取值\)
简单理解就是独立性,不带条件的独立性
条件独立性的性质
对称性
分解性
弱联合性
收缩性
关于弱联合性,想了一个案例,如图,这条性质在PRML的书隐式的用到了很多次
注意这里除了对称性,其他3条,都只是正向推导,不是正向反向都能推导出来的
还有一个额外的性质
\(\color{red}{难道还有负分布???看不懂}\)
\(S是可测事件(measurable\ event)的集合,\alpha是一个事件\)
\(这里翻译的有点小问题应该是\alpha \ne \empty,不是\alpha \ne 0\)
\(\color{red}{以上几条性质没有证明过程,但是书后面的习题有,待补充}\)
本书的主要目的
本书中,主要关注点是利用多维随机变量的联合概率分布来完成感兴趣的查询
目标一
目标二
\(注意,这里右边的表格不是联合概率分布P(A,B),而是条件分布P(B|A)\)
目标三
\(\color{red}{不能用MAP查询给出我们对于边缘MAP查询的正确答案}\)
连续空间
概率密度函数 PDF
一些公式
CDF - 累计分布函数
均匀分布
高斯分布/正态分布
连续函数的联合密度函数
连续函数的边缘概率密度函数
\(这里是对y做积分,y从负无穷到正无穷,也就是y取到了所有可能的值,所以积分后得到的是x的边缘概率\)
\(先记住结论吧,结论就是连续函数的条件概率密度函数=联合密度函数/边缘概率密度函数
和离散不太一样的是,离散可以直接带入x=Val(X)求概率,连续的无法带入,必须先求得条件密度函数,再求对应区间(a\le X \le b )的积分,得到某个区间(a\le X \le b )上的概率\)
连续函数的条件独立性
期望
离散变量
连续变量
期望的一些性质
这个性质称为期望的线性关系
\(\color{red}{即使变量不独立,这个等式也成立}\)
变量乘积的期望
方差
\(D(X)=E\{[X-E(X)]^2\}=E\{X^2 -2XE(X)+[E(X)]^2\}\)
\(=E(X^2)-2E(X)E(X)+[E(X)]^2\)
\(=E(X^2)-[E(X)]^2\)
标准差
方差的一些性质
\(1.C是常数,D(C)=0\)
\(2.D(CX)=C^2D(X),D(X+C)=D(X)\)
\(3.D(X+Y)=D(X)+D(Y)+2E\{(X-E(X))(Y-E(Y))\}\)
\(若X,Y相互独立,则有\)
\(D(X+Y)=D(X)+D(Y)\)
切比雪夫不等式
切比雪夫不等式给出了随机变量在分布未知,而只知道E(X),D(X)的情况下估计概率P{|X-E(X)| < \epsilon}的界限,用来做一些很粗的估计