概率图 | 两次小测的笔记存档

这是两次习题课的笔记存档，分别对应两次小测题目；覆盖了所有考点……

这些笔记是答题 pipeline 的总结，并不是知识点教学；需要稍微懂一些知识点，感觉才能看懂（）

（反正我现在已经看不懂了……（笑脸哭脸.gif）

20231027 - 第七周小测复习
20231218 - 期末复习课

20231027 - 第七周小测复习

base distribution？

Gaussian / Poisson / Uniform / Gamma / Beta / Binomial
联合高斯分布：\(\exp[\frac 12(x-\mu)^T\Sigma^{-1}(x-\mu)]\)。

1 bayes 公式

【作业题 1-2】对于 “选择箱子 1 主持人开箱子 2 是否换箱子 3” 问题，狂把 | 后面的项换到前面，P(选择箱子 1 主持人开箱子 2 | 在箱子 3)，分母对奖品真正在的箱子求和。
【作业题 1-4】独立：P(X|Y) = P(X)。证明不独立，可以构造特例。
【作业题 1-4】upward closure：该节点的所有父节点，以及所有父节点的父节点…

2 基本 PGM 表示

【作业题 2-2-1】factorization：P(所有变量) = Π P(child | parents)
【作业题 2-1】计算 P(C,D|A) 时，1. 看 given A 后 C D 是否独立，2. 可能会有 P(A|B) P(parent, child) 的项。
【作业题 2-2-3】看是否独立，就看有无通路；除了 child 被封住的 V-structure，剩下都是通路（倒 V 也算）。
【作业题 2-3】画 I-map 的算法：加入新点，给出旧点的一部分，是否与另一部分独立？
【作业题 2-5】do 操作还是不太会。但不在考试范围内。
【作业题 2-4】画图：观测值 s' ← 真实值 s ← 隐变量 h。

3 Bayesian Network（BN）

【作业题 3-1】画框图。直接按照 y|x 来画依赖关系，若有重复就框 N，若有粗体就画向量箭头。
画图的 1. 向量箭头 2. 可观测变量的阴影都需要画出来。
若 observation 为整数，则选择泊松分布作为基分布。
【作业题 3-2-2】先隐变量决定超平面，再给出超平面表达式：答案为
- graph TB c((c)) z((z)) x((x)) c-->x z-->x pi-->c
- 其中 c 是决定点在哪个平面上的，参数为向量 \(\pi\)；z 是正态（？）的偏移量；x 是 \(N(x_i~|~\mu_k+W_kz_i,\phi_k)\)。（背过就好）

4 隐马尔可夫模型（HMM）

【作业题 3-4-1】factorization：把（t 时刻的）所有节点的概率（其实是条件概率）写出来、乘在一起、再连乘 t。
【作业题 3-4-2】markov blanket：堵住多少变量，才能让它和其他变量独立；有向图包含它的父节点和子节点，都需要堵住。
【作业题 3-4-2】对于一个点的 markov blanket，有三种点：
- 它的父节点、它的子节点（推导出的点们）、子节点的其他父节点。
- 若算简单概率，先把它的子节点使用贝叶斯公式 P(X|Y) = P(XY) / P(Y) 移到最前面，然后在给定一切的情况下，它们相互独立，可以独立写成各种转移概率。
- 然后，对于 / P(Y) 项，大概率是常数。

5 Markov Network（MN）

chordal graph 弦图：只能有三角形的图。
【作业题 4-2-2】Markov Blanket MB(Y) = {X1, X2}。
【课件 5-22】Gibbs Distribution（log-linear）：P(X) = 1/Z · exp(-U(X)), U(X) = -Σax1 - Σax1x2 - ...
【课件 5-20-21】Q 用来描述相比一个特定 ground state 的概率比值。
【课件 5-16-17】普通 Gibbs Distribution：\(P(\mathbf X)=1/Z\cdot \prod\pi[D]\)，D 是 clique。
BN 变 MN 的两步：1. Moralization：在 v-stucture 的 parents 间添加边。2. Triangulation：全都画成三角形。
【作业题 4-4】二部图，P(H1, H2 | V1..n) = P(H1 | V1..n) · P(H2 | V1..n)。

20231218 - 期末复习课

考试重点：似然加权采样、重要性采样、吉布斯采样、平均场变分法；MLE、贝叶斯参数学习、随机梯度优化、数据不完整情况下的学习、结构学习 BIC 评分。

多元高斯分布，没有高阶项。（只要把无向图建模成多维高斯分布，就没有三阶项）

课件 5，38 页，Gaussian random field。

1 inference 基础

【似然加权采样、重要性采样】

clique tree 的 inference 算法：（第七章）
- 发信息、calibration 校准，两边传递信息相等则收敛。Bethe / loopy cluster graph。
- induced graph： moralizing：（？）有向图 → 无向图，连接 V-structure，多边形变成三角形。
- clique tree 基础：tree 的节点是 induced graph 的 clique，可以算到每个 clique 节点中的真正图节点的概率 P(J) = sum out {LG} P(J| L,e) P(L|G) 之类的。
- factors：ppt 7 从 22 页开始，Φ 是初始的概率形式，τ 是 Φ 相乘求和。message：需要什么传什么？
- calibration 校准：A → B 的 message = B → A 的 message。大概 54 55 页。
- 可参考作业 5。
likelihood weighting：（第八章）
- 有向图变无向图：mutilated tree，斩断指向 observed variables 的边；有向图 → 有向图。
- 每个样本的权重： \(w=P(X_i ~|~ \mathrm{Pa}_{X_i})\) 。
- 用权重来 estimate： \(P(y|e)\approx\frac{\sum w[m]\cdot 1\bigg[\xi[m](Y)=y\bigg]}{\sum w[m]}\) 。
importance sampling：（第八章）
- \(E_{P(X)}f(X)=\sum Q(X)f(X)\frac{P(X)}{Q(X)}=E_{Q(X)}[f(X)\frac{P(X)}{Q(X)}]\) 。
- 样本权重 \(w=\frac{P(X)}{Q(X)}\) 。（很直观的权重）

2 inference 算法

【平均场变分法、吉布斯采样】

inference 算法全都是无向图中；clique tree 是精确推断，cluster graph 以及后面基于采样的方法，都不是精确推断。

无向图的 mean field variational inference：（第八章）
- \(q_j(x_j) \propto \exp\{E_{-q_j} [\log p(x)]\}\) 的公式（貌似对于所有结构都是通用的）。
- 用分布 Q 近似分布 P，其中 Q 中任何节点之间都没有边。把要 maximizes 的 L（likelihood？）叫做 energy functional。
- 例题：ppt 8，24 页。
- mean-field updating：
  - 可以求得一个 q* ，因为预定义 q = 1 if θ elif 1-θ then 0 这种，所以有 θ = P(q*=1) / P(q*=0) + [P(q*=1)] ，这就是 θ 的更新公式。
gibbs sampling：（第九章，作业 6）
- 使用 markov chain，transition probability 用自己的分布去定义。
- markov chain 的 regular（能收敛到稳定分布）对 BN 和 MN 分别有条件。
- transition probability：貌似是转移概率：P(B | Markov Blanket(B)) 。
- 需要设置 burn-in time T，认为 T 次采样后分布稳定。
Metropolis-Hasting sampling：（第九章，作业 6）
- 使用 markov chain，transition probability 可以任意，但要维护一个 acceptance。
- \(A(x\rightarrow x')=\min[1,\frac{\pi(x')\tau^Q(x'\rightarrow x)}{\pi(x)\tau^Q(x\rightarrow x')}]\) 。若生成的随机 uniform ≥ acceptance，则转移，否则呆在原地。
- 其中 \(\pi(x)=P(X=x)\) ，应该是原分布的概率（原分布无未知参数）。
- （why 的作业比较清楚）

3 learning 基础

【MLE、贝叶斯参数学习、随机梯度优化、数据不完整的学习】

MLE：（第十章）
- maximum likelihood： max log P(x | θ) 。
- maximum a posterior（MAP？）：max P(θ | x) 。
- MLE 只会跟父节点有关系，跟其他节点没关系。
- θ 的先验经常是 beta 分布，因为它的后验分布也是 beta 分布。（课件 31 页）
贝叶斯参数学习：
- （不知道考察点，大概是给一个 BN + local CPD，使用 MLE 做参数估计吧）
随机梯度优化：
- 无向图的 likelihood 是凸的，所以直接 gradient 方法求解参数 θ。
- 有向图也可以：写出 p(x; α, w) （记住加 const），计算 \(\partial\log p(x; α, w) /\partial α\) ，进行梯度上升。
数据不完整的学习：（第十一章）
- 使用 likelihood weighting，对 hidden variable 的值进行补全，并对各种可能的补全值的 sample 进行 weighting。
- 就是这样，先 inference hidden variable 的值，再用补全数据 learning 更新 parameters，再用新 parameters 做 hidden variable 的 inference…
- 基于梯度的 learning：写出 Q(θ; X) = log P(X | θ) ，缺失的 X 用期望或采样补全，然后 \(\partial Q/\partial θ\) 梯度上升。

4 structure learning

【结构学习 BIC 评分】

BN 的 structure learning：（第十二章）
- beyesian structure score： \(score_B(G|D)=\log P(D|G)+\log P(G)\) 。log P(G) 是图结构本身的先验，我们预先认为它更可能是什么结构。
- prequential prediction： \(p^{[m+1]}=\int P\big(x[m+1]~|~θ^{[m]},G\big)P\big(θ^{[m]}~|~x[1\sim m],G\big)dθ\) 。
- 计算 bayesian structure score：计算 17 18 页的公式，对参数空间积分。
- BIC score 是样本无穷多推出的。
- \(\mathrm{score}_{BIC}(G|D)=l(\hat θ_G|D)-\frac12\log M \dim[G]\) ，其中 dim G 是 G 的参数个数，hat θ 是 MLE 最大似然估计的参数，M 是数据个数。

posted @ 2024-02-06 10:47 MoonOut 阅读(43) 评论(0) 编辑收藏举报

刷新页面返回顶部

月出兮彩云归 🌙