[PGM] What is Probabalistic Graphical Models
学术潜规则:
概率图模型提出的意义在于将过去看似零散的topic/model以一种统一的方式串联了起来,它便于从整体上看待这些问题,而非具体解决了某个细节。
举个例子:梯度下降,并非解决神经网络收敛问题而专门提出的什么算法,其实是凸优化理论中的一部分。凸优化理论的作用就是概率图模型的贡献所在。
统计机器学习,有数学系角度的认识,也有计算机系角度的认识。
该课程更偏向于数学系视角,所以课程中包含了大量的概率基础。但课程的top不够,但并非讲师不行,而是计算机系的学生并未系统的学习贝叶斯推断所致。
这门课从目录看来,比较系统全面,只是讲课水平与女魔头 Stanford - Daphne Koller 有一点距离,可能是讲师性格所致。
MIT - Algorithms-for-Inference
MIT的PPT看上去怎么这么变态!
其实,“统计机器学习”就是PGM,或者说是Advanced PGM。从这个角度来讲,将高斯过程,LDA等划分到Advanced PGM是比较合理的。
Lectures from Carnegie Mellon University course 10-708
Resource: https://www.cs.cmu.edu/~epxing/Class/10708-15/lecture.html
学习笔记:一些基础概念,仅关注与Bayesian Inference之间的关系并强化理解
Lecture 01
1.
GM = Multivariate Statistics + Structure PGM是一种宏观的架构,而非具体的什么。
2.
3.
4.
An MLer's View of the World
其实就是在说神经网络的特点。最后就是课程的大纲。
Lecture 02
多元变量分布 (表示方式)
色子:有人出老千了么?
Picking variables
Observed
Hidden
Picking structure
CAUSAL
Generative
Coupling
Picking Probabilities
Zero probabilities
Orders of magnitudes
Relative values
Bayesian Network: Factorization Theorem
Local Structures & Independencies
Ref: [Bayes] openBUGS: this is not the annoying bugs in programming
第一条,第二条:
- 不知道B的话,a孩子的血型是AC,其实“反作用”于c双亲不可能是O型血。然后,这个推断也影响了C孩子的血型可能性,即:也不可能是O型血。
- 知道了B的话,比如c父母只有A and B血型因子,那么A and C孩子变为了在B已知条件下的独立。
第三条:Only the third one (V-structure) is different.
- 没发现C,A AND B 不依赖。
- 若发现C,A AND B 则依赖。(以上恰恰相反)
I-maps
建立图(分布)之间的关系,
P1: 可求得 x0 = 0.4, x1 = 0.6; y0 = 0.2, y1 = 0.8,可见x与y独立。
P2: 得不到独立的x与y。
我们需要I-MAP来得到P1。
Graph separation criterion
目的,
D-Separation(D分离),判断 x, y, z之间有(独立)关系么?
我们希望确定,任意给一个有向图即贝叶斯网络,我们可以得到图中任意A.B是否关于C条件独立。
Then,
x --> y之间有一条path;
z 不能 block x to y。
Thus,
x and y are not conditionally independent (不是条件独立) to given z。
active 的定义 for D-Separation(D分离)
Causal trail X → Z → Y : active if and only if Z is not observed.
Evidential trail X ← Z ← Y : active if and only if Z is not observed.
Common cause X ← Z → Y : active if and only if Z is not observed.
Common effect X → Z ← Y : active if and only if either Z or one of Z’s descendants is observed.
谨记:
如果,两个 sets of interests 之间有 active trail,
那么,they are not conditionally independent (有活动的,则不条件独立).
"Bayes-Bayesball" algorithm
active: ball can go through; If not, bound back.
结果包含了所有的“条件独立”的状态。但不是所有的“条件独立”都需要关心。
The Equivalence Theorem
举个栗子
看得头大,来个栗子!连续分布与离散分布的表示:
总结,感觉讲得一般,投靠女魔头 Professor Daphne Koller