概率图基础:概率基本概念、条件独立性、图求解联合概率的规则合理性推理
来源:B站up主Shuhuai008:板书
概率图框架:
概率图可分为有向(Bayes Network)和无向(Markov Netwrok),其中从(随机变量服从离散或者连续概率分布)的分类角度可分为高斯图(连续)和其他(离散)。
概率基本概念:
Bayes是一个概率的概念,可从基本的规则推导而来。
边缘概率:p(xi);
条件概率:p(xj | xi);
联合概率:p(x1,x2);
基本规则有如下两个规则:
sum规则:p(x1)=∫p(x1,x2)dx2 【涉及联合概率;边缘概率】
Product规则:p(x1,x2)=p(x1)p(x2|x1)=p(x2)p(x2|x1); 【涉及条件概率;边缘概率】
Chain规则:
p(x1,x2,x3)=p(x1)p(x2|x1)p(x3|x1,x2);
p(x1,x2,…xi)=product(i=1~p)(p(xi|x1,x2,xi-1)); (1)
Bayes规则:p(x2|x1)=p(x1,x2)/p(x1)=p(x1,x2)/∫p(x1,x2)dx2=p(x2)p(x1|x2)/∫p(x1,x2)dx2
概率模型求解问题时存在的高维困局:
用概率模型解决问题的时候,求解联合概率是关键的一步,但由于求解复杂问题时,往往随机变量均为高维数据,从chain公式的推导可以看出每一个随机变量的计算,都与它之前的随机变量有关,运算量非常大,那么就存在一个高维困境的问题,这个问题可以通过以下方法解决。
高维困局解决方法(Naive Bayes; Markov;条件独立性):
首先分析得出,由于随机变量间的条件概率计算繁琐,那么可以假设所有随机变量均为相互独立的变量,达到简化计算的目的,这就是朴素Bayes的思想,那么p(x1,x2,…xi)=product(i=1~p)(p(xi));。但是这个假设假设得太“过”了,计算出的结果与实际相差甚远,那么就需要想出折中的办法,由此引出了Markov假设(这里只介绍一阶Markov假设):xj⊥xi+1 | xi,j<I,在当前状态xi可以被观测的情况下,过去状态xj与未来状态xi+1条件独立。【一阶Markov假设:因为隐状态是一阶的所以叫一阶Markov假设?】
markov性质示意图(一阶马氏链)
但是Markov假设还是太理想了,所以将其进行推广,得到了条件独立性的假设。在条件独立性中,假设xi分别与一定数量的其他变量相关(需要计算条件概率),而与剩下的变量相互独立,这就引出了“条件独立性”的概念。条件独立性可以用符号表示,a⊥b|c:表示已知c的情况下,a和b相互独立;或者说在c可以被观测的情况下,a和b相互独立。条件独立性是采用chain规则求解联合概率的一种简化手段,为了解决高维困境,较少计算时间提出的。
(2)
引入条件独立性求解联合概率的公式【xpa是“图”中xi父节点的集合】(也可称为联合概率的因子分解形式)
既然条件独立性提出了,那么概率的定义、相关规则、求解手段都具备了。那么现在来说说“概率图”中的“图”。
概率图求解联合概率:
1、解决问题步骤:分析问题=>得出各个状态变量的拓扑排序(父节点/子节点)=>画出概率图=>列出联合概率式子
2、概率图图标、符号解释:
其中,空心圆圈表示状态变量,实心圆圈表示可以被观测到的变量。【由于变量是否可被观测对条件独立性有影响,所以概率“图”中有这样的区分。】,箭头表示状态变量间的关系,在有向图中,箭头表示拓扑关系:p(a);p(b|a):a是父节点,b是子节点,箭头从父结点指向子节点。
下面介绍怎么用图表示概率、表示条件独立性(由于图是辅助表达的一种手段,所以从图中是一定能比较简便的得到某些信息的,使某些信息更加直观,这也是引入图的目的。在概率图中这个“直观的信息”就是“条件独立性”)。
能够直接用概率图的方法得到联合概率的合理性可从下面①例子解释,①②③分别为Bayes网络的小模块及其条件独立性判断规律(该规律根据逻辑推理总结得到)。
①(tail to tail): b⊥c | a;
若a没被观测,则b与c连通,条件不独立;
若a被观测,则b与c被阻塞,条件独立。
【图中阴影表示状态变量被观测】
图求解规则合理性检验:
【【
:通过验证(1)式和(2)式得出的结果一致,验证概率图求解联合概率的方式可行性。
=>
(1): p(a,b,c) = p(a)p(b|a)p(c|a,b)
(2): p(a,b,c) = p(a)p(b|a)p(c|a)
=> 所以要验证 p(c|a,b)=p(c|a)
=> 两边同乘 p(b|a)得
=> p(c|a,b)p(b|a)=p(c|a)p(b|a) 【左边将a遮掉 则较好理解,可看成 p(c|b)p(b)=>p(c,b)】
=> p(c,b|a)=p(c|a)p(b|a)
得证: b⊥c | a
】】
②(tail to head): a⊥c | b
若b没被观测,则a与c连通,条件不独立;
若b被观测,则a与c阻塞,条件独立; 【<=> p(a,c|b)=p(a|b)p(c|b)】】
【【
图求解规则合理性检验:
=>
(1): p(a,b,c) = p(a)p(b|a)p(c|a,b)
(2): p(a,b,c) = p(a)p(b|a)p(c|b)
=> 所以要验证 p(c|a,b)=p(c|b)
=> 两边同乘 p(a|b)得
=> p(c|a,b)p(a|b)=p(c|b)p(a|b) 【左边将a遮掉 则较好理解,可看成 p(c|b)p(b)=>p(c,b)】
=> p(c,a|b)=p(c|abp(a|b)
得证: b⊥c | a
】】
③(head to head): a⊥b
若c没被观测,则a与b阻塞,条件独立;【a⊥b】
若c被观测,则a与b连通,条件不独立;
【若d被观测,则a与b连通,条件不独立;】
【【
图求解规则合理性检验:
=>
(1): p(a,b,c) = p(a)p(b|a)p(c|a,b)
(2): p(a,b,c) = p(a)p(b)p(c|a,b)
=> 所以要验证 p(b|a)=p(b)
=> 两边同乘 p(a)得
=> p(b|a)p(a)=p(b)p(a) 【左边将a遮掉 则较好理解,可看成 p(c|b)p(b)=>p(c,b)】
=> p(a,b)=p(b)p(a)
得证: a⊥b
】】
问题:
一阶Markov假设的一阶体现在哪儿?状态变量为一阶?变量一阶体现在?
混合模型的混合体现在哪儿?体现在有可观测变量和隐变量么?
完备数据是什么?非隐变量模型?
Bayes 用途?用于分类?
什么是概率图的连通,指的是状态变量的概率之间会相互影响?
参考资料:https://www.bilibili.com/video/BV1BW41117xo?p=1 ,作者:shuhuai008