概率图模型课堂笔记:1.3 马尔科夫网络

第三节 CRF

CRF主要解决输入变量$X_i$之间的互相依赖问题。大多数情况下,$X_i$是有互相影响的,但是我们在建模的时候,很难把它们之间的关系用有向图或者无向图描述清楚。如果强行假设它们之间互相独立,训练出来的模型往往会有问题,类似朴素贝叶斯(具体例子待研究)。

所幸大部分情况下,我们并不在意输入输入变量之间的关系,我们在乎的是$\boldsymbol{X}$作为一个整体和$Y$的关系。所以我们用$P_\phi(Y|\boldsymbol{X})$来描述一个CRF(Condictional Random Field)。

常见的CRF之一就是Logistic Model:$\phi_i(X_i,Y)=\exp(w_i\mathbf{1}\{X_i=1,Y=1\})$

每个$X_i=1,Y=1$贡献各自的的$e^{w_i}$

我们可以注意到,这里并不是一个整体的$\phi(Y,X_1,X_2,\cdots,X_n)$。马尔科夫网可以用分开的factor来描述一个非独立的影响关系。这点BN做不到。

$P(X,Y=1)=\exp(\sum_i(w_iX_i))$

$P(X,Y=0)=1$

$P(Y=1|X)=\frac{P(X,Y=1)}{P(X,Y=0)+P(X,Y=1)}=\frac{exp(\sum_i(w_iX_i))}{1+exp(\sum_i(w_iX_i))}$

 

第六节 Log线性模型

6.1 一般描述

定义$scope{\phi}$为$\phi$中涉及的变量,例如$scope{\phi(A,B)}={A,B}$

考虑一个马尔科夫的因子乘积的形式:

$\tilde{P}=\prod_{i}\phi_i(D_i)$

我们放宽限制,允许不同的i拥有相同的$D_i$ (scope)。为方便,可以看成是多个sub factor的点乘。

取$\phi_i=\exp(-w_jf_j(D_j))$,有

$\tilde{P}=\prod_{i}\phi_i(D_i)=\exp(-\sum_jw_jf_j(D_j))$

$f$我们称之为feature。下面几个模型都是用不同的feature集来描述的:

 

6.2 Table Model

用这个形式可以用来描述最常见的table factors,例如,对$\phi(X_1,X_2)$来说,把它拆成四个sub factor的点积:

$\phi(X_1,X_2)=\left[\begin{array}{ccc}a_{00}&a_{01}\\a_{10}&a_{11}\end{array}\right]=\left[\begin{array}{ccc}a_{00}&1\\1&1\end{array}\right]\cdot\left[\begin{array}{ccc}1&a_{01}\\1&1\end{array}\right]\cdot\left[\begin{array}{ccc}1&1\\a_{10}&1\end{array}\right]\cdot\left[\begin{array}{ccc}1&1\\1&a_{10}\end{array}\right]$

令$f_{12}^{00}=\boldsymbol{1}\{X_1=0,X_2=0\}=\left[\begin{array}{ccc}1&0\\0&0\end{array}\right]$

再令$\phi_{00}(X_1,X_2)=\exp(-w_{00}f_{12}^{00}(X_1,X_2))$,其中$w_{00}=-\log a_{00}$,

则有$\phi_{00}(X_1,X_2)=\exp(-(-\log a_{00})f_{12}^{00}(X_1,X_2))$,刚好就是上面分拆式的第一个矩阵。

对于后面三个矩阵,也可以用相类似的方式来表示。

 

6.3 Ising Model

电子方向问题,$x_i\in\{-1,+1\}$。

取$f_{i,j}(Xi,Xj)=X_iX_j, f_i(X_i,X_j)=X_i$。它们都是特征函数。组成一个Log Linear模型后的表达式为:

$\tilde{P}(\boldsymbol{X})=\exp(-\frac{1}{T}E(\boldsymbol{X}))=\exp(\frac{1}{T}\sum_{i<j}w_{i,j}x_ix_j+\sum_iu_ix_i)=\sqrt[T]{\exp(\sum_{i<j}w_{i,j}x_ix_j+\sum_iu_ix_i))}$

也可以拆成一系列$\phi$的乘积。一部分是$f_{i,j}$,一部分$f_i$。这里省略。

我们看出,当对给定的$x_1,...,x_n$, 如果$x_ix_j=-1$的对越多,那么函数值越小,也就是“概率”越小。

但是,随着T越大,那么$\tilde{P}$的各个值越平均,小的不再那么小,大的也不再那么大。那么对相反电子排布的容忍度也就越高。

 

6.4 Metric MRFs

定义$f_{ij}(X_i,X_j)=\mu(X_i,X_j)=dist(X_i,X_j)$

我们有$\tilde{P}(X_1,X_2,...,X_n)=\exp(\sum_{i<j}w_{i,j}x_ix_j), w_{ij}>0$

对于整个系统来说,距离和越大,$\tilde{P}$值越小,概率越小。这点和6.3 Ising Model相反。注意它们的系数,6.3中的两个负号相互抵消了。

距离函数$\mu$有很多不同的模型,比如step模型,绝对差值模型,限制绝对差值模型,等等。

 

第七节 权重共享

很多情况下,不同Feature的系数(权重)是可以共享的,对6.3 Ising Model来说,每个边对应的相邻点对都有一个feature$f_{ij}$, 它的scope就是$\{X_i,X_j\}$。可以发现,对不同临边对来说,虽然它们feature不一样,但是却有着相同的关系,可以共享相同的系数。

进而,我们可以把共享系数的这些feature归为一个feature,只是它们的应用到不同的scope上而已。

 

posted on 2017-01-03 20:27  米老虎M  阅读(357)  评论(0编辑  收藏  举报

导航