pgm3
这部分主要讨论了一些概念性的东西。一个是常用的 local probabilistic models,一个是如何用 template-based representation。
这里需要区分一点的是 context 与“给定某个随机变量”的细微差别,context 指某些变量的具体赋值,比如 ,而给定仅仅表明 的值我们知道,至于是 0 还是 1 天知道。从某个角度来说如果对任意的 赋值,我们都有同一个 context-specific CPD,那就等价于原先的 CPD 了。
另外一点是 causal relationship 对设计网络的好处在于,如果 BN 反应了因果关系,那么得到的网络往往具有较多的独立性,也就意味着我们有更少的边,更简单的模型,更少的参数,等等。否则就会导致模型变得复杂起来。
这部分主要搞清楚 plate model,当然有一些特殊的例子(比如做时序模型,一般就会用 2-slice BN),这里为了把整个逻辑 formulate 得更加数学化(形式化,精确化),书里面用了不少符号看起来比较累。其实就是说原先的图上的顶点表示随机变量,但现在就对应的是一类随机变量了,那怎么办呢,没关系,我们称之为 template variable/attribute,并且定义了所谓的 object skeleton 这个所有可能的范围。这时 plate 里面画的“变量”其实代表了这个 template variable 的 index,而如果处于几个 plate 里面相当于有几个 index。但是 plate 这种搞法就出现了一个问题,由于是“cross product”意味着任意乘积空间里面的随机变量组合都是“合法”的,在某些情况这就会引入很多不必要的“边”。因此我们需要从这里面取子集出来,这每个子集就是我们常说的“关系”,通过所谓的 guard 定义的 contingent dependency 就是为了把符合关系的边加上而去掉不符合关系的边。
对于无向图模型,在 Gibbs distribution 下我们常用的 feature 也会被推广到 template feature 上:feature 是 r.v.s 的函数,而这里就是 template variables 的函数了。
来自 video 上的一些补充
有的内容还是听课稍微清楚一些,不过课程上面也有书上不少东西没有被 cover 到。
一个比较是关于什么时候使用 shared parameter 什么时候使用 specific 的 parameter。特别是用了 template-based representation 之后,我们很容易想到某些地方的参数可以 share,某些时候我们需要做额外的假定,比如 HMM 之类里面通过一阶 Markov 性简化到前后状态的转移后,我们很容易想到使用 plate 来简化这个图模型,这就导致我们想到使用 shared transition matrix 和 emission probability,这意味着 time-invariant assumption。
另外有一些前面的知识和概念上的补充。比如 minimal I-map 和 perfect I-map:前者只要求没有多余的边,往往不能很好的刻画给定的 independency set/给定的分布(存在更多边的图,这样 independency assertions 变少了,但是仍然 compatible to 给定的 independency assertions);而某些 independence set 又没有 perfect I-map(参考 MRF 和 BN 存在的表达上的差异那块)。
video 上至此 representation 上的内容就结束了。
——————
But Abimelech had not come near her: and he said, LORD, will you slay also a righteous nation?