连接

长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)

翻译学长的一片论文:Long Short-Term Memory Neural Networks for Chinese Word Segmentation

传统的neural Model for Chinese Word Segmentation

中文分词一般是基于字符的序列标签。每个字符可以被标记为集合{B, M, E, S}中的一个元素。 B - Begin, M - Middle, E-End of a multi-character segmentation(多字符分割)，S 代表 Single character segmentation。

neural Model总共有三个专门（specialized）的层：

字符嵌入层 (a character embedding layer）
一系列传统的神经网络层（a series of classical neural network layers）
标签推断层 ( tag inference layer）

c(t)∈R^d,x(t) =[c(t-2),c(t-1),c(t),c(t+1),c(t+2)]∈R^H₁,H₁=k*d, |T|为tags size(这边假设k=5)

RNN Model

输入序列：

隐藏层update：

我们看到，h(t)与h(t-1)是有关系的。

PS：RNN实际上是无法学习长时间动力学行为的，梯度反向传播时，存在梯度爆炸（explode）或消失（vanish）现象。

LSTM Model

LSTM提供一个记忆单元 C。 C的变化被三个门给控制：

输入门input gate: i
遗忘门forget gate: f
输出门output gate: o

下面是gate， cell update， hidden output update的定义

PS: W_ic, W_fc and W_oc 是对角阵(diagonal matrices) 但是，在其他地W_ic, W_fc and W_oc 不是对角的的，而是额外再加个偏置b_i,o,f

LSTM Architectures for Chinese Word Segmentation

LSTM-1： The LSTM-1 simply replace the hidden neurons with LSTM units

LSTM-2：在LSTM-1的基础上再堆积一层，并且下一层的h(t)直接作为上一层的输入，不做任何变化

LSTM-3：在LSTM-1的基础上，将将局部的LSTM输出进行合并 ,将h'(t)=[h(t-m1),..,h(t),...,h(t+m2]代替原来的h(t)

LSTM-4:在LSTM-3的基础上，再堆积一层

Inference at Sentence Level

由于标签之间存在一定关系，已有的工作是定义一个概率转移矩阵A=(A_ij)_4*4,

　　A_ij：代表Tag i 转移到 Tag j的转移概率，i,j ∈ T, |T|=4

定义a sentence level score

其中，是Tag 对应的score，就是网络输出的4维向量。涉及到的参数为

θ={M, A, W_ic, W_fc, W_oc, W_ix, W_fx, W_ox, W_ih, W_fh, W_oh, W_cx, W_ch}

Training

Max-Margin criterion

定义Y (x_i)为所有句子x_i可能出现的标签集合，并且y_i为x_i对应的正确标签。

定义

其中，，

现在假设我们有一批训练数据，并且建立以下的L2范数下的正则化损失函数：

用到的优化方法：

subgradient method (Ratliff et al., 2007)
diagonal variant of AdaGrad (Duchi et al., 2011)

　　　　

Dropout

对于神经网络中的各个层的节点，都已p的概率选择睡眠，也就是1-p的概率被激活。（或者每层采取不同的p，反正得自己去试，看看怎么样的参数最好，文中是在input lay中取p=0.2）

模型超参（hyper-parameters）设置：

posted @ 2017-05-05 11:10 朱群喜_QQ囍_海疯xx 阅读(704) 评论(0) 收藏举报

刷新页面返回顶部

Map