概率图 | 两次小测的笔记存档
这是两次习题课的笔记存档,分别对应两次小测题目;覆盖了所有考点……
这些笔记是答题 pipeline 的总结,并不是知识点教学;需要稍微懂一些知识点,感觉才能看懂()
(反正我现在已经看不懂了……(笑脸哭脸.gif)
目录
20231027 - 第七周小测复习
base distribution?
- Gaussian / Poisson / Uniform / Gamma / Beta / Binomial
- 联合高斯分布:\(\exp[\frac 12(x-\mu)^T\Sigma^{-1}(x-\mu)]\)。
1 bayes 公式
- 【作业题 1-2】对于 “选择箱子 1 主持人开箱子 2 是否换箱子 3” 问题,狂把 | 后面的项换到前面,P(选择箱子 1 主持人开箱子 2 | 在箱子 3),分母对奖品真正在的箱子求和。
- 【作业题 1-4】独立:P(X|Y) = P(X)。证明不独立,可以构造特例。
- 【作业题 1-4】upward closure:该节点的所有父节点,以及所有父节点的父节点…
2 基本 PGM 表示
- 【作业题 2-2-1】factorization:P(所有变量) = Π P(child | parents)
- 【作业题 2-1】计算 P(C,D|A) 时,1. 看 given A 后 C D 是否独立,2. 可能会有 P(A|B) P(parent, child) 的项。
- 【作业题 2-2-3】看是否独立,就看有无通路;除了 child 被封住的 V-structure,剩下都是通路(倒 V 也算)。
- 【作业题 2-3】画 I-map 的算法:加入新点,给出旧点的一部分,是否与另一部分独立?
- 【作业题 2-5】do 操作还是不太会。但不在考试范围内。
- 【作业题 2-4】画图:观测值 s' ← 真实值 s ← 隐变量 h。
3 Bayesian Network(BN)
-
【作业题 3-1】画框图。直接按照 y|x 来画依赖关系,若有重复就 框 N,若有粗体就画向量箭头。
-
画图的 1. 向量箭头 2. 可观测变量的阴影 都需要画出来。
-
若 observation 为整数,则选择泊松分布作为基分布。
-
【作业题 3-2-2】先隐变量决定超平面,再给出超平面表达式:答案为
-
graph TB c((c)) z((z)) x((x)) c-->x z-->x pi-->c
-
其中 c 是决定点在哪个平面上的,参数为向量 \(\pi\);z 是正态(?)的偏移量;x 是 \(N(x_i~|~\mu_k+W_kz_i,\phi_k)\)。(背过就好)
-
4 隐马尔可夫模型(HMM)
- 【作业题 3-4-1】factorization:把(t 时刻的)所有节点的概率(其实是条件概率)写出来、乘在一起、再连乘 t。
- 【作业题 3-4-2】markov blanket:堵住多少变量,才能让它和其他变量独立;有向图包含它的父节点和子节点,都需要堵住。
- 【作业题 3-4-2】对于一个点的 markov blanket,有三种点:
- 它的父节点、它的子节点(推导出的点们)、子节点的其他父节点。
- 若算简单概率,先把它的子节点使用贝叶斯公式 P(X|Y) = P(XY) / P(Y) 移到最前面,然后在给定一切的情况下,它们相互独立,可以独立写成各种转移概率。
- 然后,对于 / P(Y) 项,大概率是常数。
5 Markov Network(MN)
- chordal graph 弦图:只能有三角形的图。
- 【作业题 4-2-2】Markov Blanket MB(Y) = {X1, X2}。
- 【课件 5-22】Gibbs Distribution(log-linear):P(X) = 1/Z · exp(-U(X)), U(X) = -Σax1 - Σax1x2 - ...
- 【课件 5-20-21】Q 用来描述相比一个特定 ground state 的概率比值。
- 【课件 5-16-17】普通 Gibbs Distribution:\(P(\mathbf X)=1/Z\cdot \prod\pi[D]\),D 是 clique。
- BN 变 MN 的两步:1. Moralization:在 v-stucture 的 parents 间添加边。2. Triangulation:全都画成三角形。
- 【作业题 4-4】二部图,P(H1, H2 | V1..n) = P(H1 | V1..n) · P(H2 | V1..n)。
20231218 - 期末复习课
考试重点:似然加权采样、重要性采样、吉布斯采样、平均场变分法;MLE、贝叶斯参数学习、随机梯度优化、数据不完整情况下的学习、结构学习 BIC 评分。
多元高斯分布,没有高阶项。(只要把 无向图 建模成多维高斯分布,就没有三阶项)
课件 5,38 页,Gaussian random field。
1 inference 基础
【似然加权采样、重要性采样】
- clique tree 的 inference 算法:(第七章)
- 发信息、calibration 校准,两边传递信息相等则收敛。Bethe / loopy cluster graph。
- induced graph: moralizing:(?)有向图 → 无向图,连接 V-structure,多边形变成三角形。
- clique tree 基础:tree 的节点是 induced graph 的 clique,可以算到每个 clique 节点中的真正图节点的概率 P(J) = sum out {LG} P(J| L,e) P(L|G) 之类的。
- factors:ppt 7 从 22 页开始,Φ 是初始的概率形式,τ 是 Φ 相乘求和。message:需要什么传什么?
- calibration 校准:A → B 的 message = B → A 的 message。大概 54 55 页。
- 可参考作业 5。
- likelihood weighting:(第八章)
- 有向图变无向图:mutilated tree,斩断指向 observed variables 的边;有向图 → 有向图。
- 每个样本的权重: \(w=P(X_i ~|~ \mathrm{Pa}_{X_i})\) 。
- 用权重来 estimate: \(P(y|e)\approx\frac{\sum w[m]\cdot 1\bigg[\xi[m](Y)=y\bigg]}{\sum w[m]}\) 。
- importance sampling:(第八章)
- \(E_{P(X)}f(X)=\sum Q(X)f(X)\frac{P(X)}{Q(X)}=E_{Q(X)}[f(X)\frac{P(X)}{Q(X)}]\) 。
- 样本权重 \(w=\frac{P(X)}{Q(X)}\) 。(很直观的权重)
2 inference 算法
【平均场变分法、吉布斯采样】
inference 算法全都是无向图中;clique tree 是精确推断,cluster graph 以及后面基于采样的方法,都不是精确推断。
- 无向图的 mean field variational inference:(第八章)
- \(q_j(x_j) \propto \exp\{E_{-q_j} [\log p(x)]\}\) 的公式(貌似对于所有结构都是通用的)。
- 用分布 Q 近似分布 P,其中 Q 中任何节点之间都没有边。把要 maximizes 的 L(likelihood?)叫做 energy functional。
- 例题:ppt 8,24 页。
- mean-field updating:
- 可以求得一个 q* ,因为预定义 q = 1 if θ elif 1-θ then 0 这种,所以有 θ = P(q*=1) / P(q*=0) + [P(q*=1)] ,这就是 θ 的更新公式。
- gibbs sampling: (第九章,作业 6)
- 使用 markov chain,transition probability 用自己的分布去定义。
- markov chain 的 regular(能收敛到稳定分布)对 BN 和 MN 分别有条件。
- transition probability:貌似是转移概率:P(B | Markov Blanket(B)) 。
- 需要设置 burn-in time T,认为 T 次采样后分布稳定。
- Metropolis-Hasting sampling:(第九章,作业 6)
- 使用 markov chain,transition probability 可以任意,但要维护一个 acceptance。
- \(A(x\rightarrow x')=\min[1,\frac{\pi(x')\tau^Q(x'\rightarrow x)}{\pi(x)\tau^Q(x\rightarrow x')}]\) 。若生成的随机 uniform ≥ acceptance,则转移,否则呆在原地。
- 其中 \(\pi(x)=P(X=x)\) ,应该是原分布的概率(原分布无未知参数)。
- (why 的作业比较清楚)
3 learning 基础
【MLE、贝叶斯参数学习、随机梯度优化、数据不完整的学习】
-
MLE:(第十章)
- maximum likelihood: max log P(x | θ) 。
- maximum a posterior(MAP?):max P(θ | x) 。
- MLE 只会跟父节点有关系,跟其他节点没关系。
- θ 的先验经常是 beta 分布,因为它的后验分布也是 beta 分布。(课件 31 页)
-
贝叶斯参数学习:
- (不知道考察点,大概是给一个 BN + local CPD,使用 MLE 做参数估计吧)
-
随机梯度优化:
- 无向图的 likelihood 是凸的,所以直接 gradient 方法求解参数 θ。
- 有向图也可以:写出 p(x; α, w) (记住加 const),计算 \(\partial\log p(x; α, w) /\partial α\) ,进行梯度上升。
-
数据不完整的学习:(第十一章)
- 使用 likelihood weighting,对 hidden variable 的值进行补全,并对各种可能的补全值的 sample 进行 weighting。
- 就是这样,先 inference hidden variable 的值,再用补全数据 learning 更新 parameters,再用新 parameters 做 hidden variable 的 inference…
- 基于梯度的 learning:写出 Q(θ; X) = log P(X | θ) ,缺失的 X 用期望或采样补全,然后 \(\partial Q/\partial θ\) 梯度上升。
4 structure learning
【结构学习 BIC 评分】
- BN 的 structure learning:(第十二章)
- beyesian structure score: \(score_B(G|D)=\log P(D|G)+\log P(G)\) 。log P(G) 是图结构本身的先验,我们预先认为它更可能是什么结构。
- prequential prediction: \(p^{[m+1]}=\int P\big(x[m+1]~|~θ^{[m]},G\big)P\big(θ^{[m]}~|~x[1\sim m],G\big)dθ\) 。
- 计算 bayesian structure score:计算 17 18 页的公式,对参数空间积分。
- BIC score 是样本无穷多推出的。
- \(\mathrm{score}_{BIC}(G|D)=l(\hat θ_G|D)-\frac12\log M \dim[G]\) ,其中 dim G 是 G 的参数个数,hat θ 是 MLE 最大似然估计的参数,M 是数据个数。