概率图模型课堂笔记:1.3 马尔科夫网络
第三节 CRF
CRF主要解决输入变量$X_i$之间的互相依赖问题。大多数情况下,$X_i$是有互相影响的,但是我们在建模的时候,很难把它们之间的关系用有向图或者无向图描述清楚。如果强行假设它们之间互相独立,训练出来的模型往往会有问题,类似朴素贝叶斯(具体例子待研究)。
所幸大部分情况下,我们并不在意输入输入变量之间的关系,我们在乎的是$\boldsymbol{X}$作为一个整体和$Y$的关系。所以我们用$P_\phi(Y|\boldsymbol{X})$来描述一个CRF(Condictional Random Field)。
常见的CRF之一就是Logistic Model:$\phi_i(X_i,Y)=\exp(w_i\mathbf{1}\{X_i=1,Y=1\})$
每个$X_i=1,Y=1$贡献各自的的$e^{w_i}$
我们可以注意到,这里并不是一个整体的$\phi(Y,X_1,X_2,\cdots,X_n)$。马尔科夫网可以用分开的factor来描述一个非独立的影响关系。这点BN做不到。
$P(X,Y=1)=\exp(\sum_i(w_iX_i))$
$P(X,Y=0)=1$
$P(Y=1|X)=\frac{P(X,Y=1)}{P(X,Y=0)+P(X,Y=1)}=\frac{exp(\sum_i(w_iX_i))}{1+exp(\sum_i(w_iX_i))}$
第六节 Log线性模型
6.1 一般描述
定义$scope{\phi}$为$\phi$中涉及的变量,例如$scope{\phi(A,B)}={A,B}$
考虑一个马尔科夫的因子乘积的形式:
$\tilde{P}=\prod_{i}\phi_i(D_i)$
我们放宽限制,允许不同的i拥有相同的$D_i$ (scope)。为方便,可以看成是多个sub factor的点乘。
取$\phi_i=\exp(-w_jf_j(D_j))$,有
$\tilde{P}=\prod_{i}\phi_i(D_i)=\exp(-\sum_jw_jf_j(D_j))$
$f$我们称之为feature。下面几个模型都是用不同的feature集来描述的:
6.2 Table Model
用这个形式可以用来描述最常见的table factors,例如,对$\phi(X_1,X_2)$来说,把它拆成四个sub factor的点积:
$\phi(X_1,X_2)=\left[\begin{array}{ccc}a_{00}&a_{01}\\a_{10}&a_{11}\end{array}\right]=\left[\begin{array}{ccc}a_{00}&1\\1&1\end{array}\right]\cdot\left[\begin{array}{ccc}1&a_{01}\\1&1\end{array}\right]\cdot\left[\begin{array}{ccc}1&1\\a_{10}&1\end{array}\right]\cdot\left[\begin{array}{ccc}1&1\\1&a_{10}\end{array}\right]$
令$f_{12}^{00}=\boldsymbol{1}\{X_1=0,X_2=0\}=\left[\begin{array}{ccc}1&0\\0&0\end{array}\right]$
再令$\phi_{00}(X_1,X_2)=\exp(-w_{00}f_{12}^{00}(X_1,X_2))$,其中$w_{00}=-\log a_{00}$,
则有$\phi_{00}(X_1,X_2)=\exp(-(-\log a_{00})f_{12}^{00}(X_1,X_2))$,刚好就是上面分拆式的第一个矩阵。
对于后面三个矩阵,也可以用相类似的方式来表示。
6.3 Ising Model
电子方向问题,$x_i\in\{-1,+1\}$。
取$f_{i,j}(Xi,Xj)=X_iX_j, f_i(X_i,X_j)=X_i$。它们都是特征函数。组成一个Log Linear模型后的表达式为:
$\tilde{P}(\boldsymbol{X})=\exp(-\frac{1}{T}E(\boldsymbol{X}))=\exp(\frac{1}{T}\sum_{i<j}w_{i,j}x_ix_j+\sum_iu_ix_i)=\sqrt[T]{\exp(\sum_{i<j}w_{i,j}x_ix_j+\sum_iu_ix_i))}$
也可以拆成一系列$\phi$的乘积。一部分是$f_{i,j}$,一部分$f_i$。这里省略。
我们看出,当对给定的$x_1,...,x_n$, 如果$x_ix_j=-1$的对越多,那么函数值越小,也就是“概率”越小。
但是,随着T越大,那么$\tilde{P}$的各个值越平均,小的不再那么小,大的也不再那么大。那么对相反电子排布的容忍度也就越高。
6.4 Metric MRFs
定义$f_{ij}(X_i,X_j)=\mu(X_i,X_j)=dist(X_i,X_j)$
我们有$\tilde{P}(X_1,X_2,...,X_n)=\exp(\sum_{i<j}w_{i,j}x_ix_j), w_{ij}>0$
对于整个系统来说,距离和越大,$\tilde{P}$值越小,概率越小。这点和6.3 Ising Model相反。注意它们的系数,6.3中的两个负号相互抵消了。
距离函数$\mu$有很多不同的模型,比如step模型,绝对差值模型,限制绝对差值模型,等等。
第七节 权重共享
很多情况下,不同Feature的系数(权重)是可以共享的,对6.3 Ising Model来说,每个边对应的相邻点对都有一个feature$f_{ij}$, 它的scope就是$\{X_i,X_j\}$。可以发现,对不同临边对来说,虽然它们feature不一样,但是却有着相同的关系,可以共享相同的系数。
进而,我们可以把共享系数的这些feature归为一个feature,只是它们的应用到不同的scope上而已。