NLP系列笔记-机器翻译之Sequence-to-Sequence模型

本篇文章内容基于Shusen Wang老师的《RNN模型与NLP应用》系列课程。
课程视频链接:https://www.youtube.com/playlist?list=PLvOO0btloRnuTUGN4XqO85eKPeFSZsEqK
课件:https://github.com/wangshusen/DeepLearning

1. Tokenization & Build dictionary

token是“符号”的意思,那tokenization简单理解就是分词,比如 “我是中国人”可以分解成['我', '是', '中国人']。

假设我们需要把英语翻译成德语,那么我们首先要做的是对不同语种做tokenization(分词)。常用的分词做法是以“词”为单位,这里为方便介绍,就以字符为单位:

  • 英语有26个字母,考虑大小写的话就有52个字符。
  • 德语也有26个字母,还有4个特殊字符。

分词后就可以得到不同语种对应的字典,结果如下图所示。

注意不同语种之前分词的结果是不一样的,比如字符 a 在英文中的编号是1,而在德文中是3。另外因为现在的任务是讲英文翻译成德文,所以德文里额外添加了两个特殊符号: \t\n分别表示起始和结束符号,你也可以用其他特殊符号,只要不与其他符号重复就可以了。

Tokenization

2. One-hot Encoding

分词和构建字典后,我们需要把每个字符转化成one-hot格式,如下图示。所以,每个字符有相同长度的列向量表示,其中只有一个位置的值为1,其余位置均为0。一个词或者一句话由一个矩阵表示。

One-hot Encoding

3. Seq2Seq

Seq2Seq由两部分组成:Encoder和Decoder。这两部分都是LSTM结构,下面分别介绍两个部分。

如果对LSTM不熟悉,可以看看最后给出的参考文献和下面两个示意图:
LSTM结构示意图:LSTM

LSTM Cell结构示意图:
LSML Cell

3.1 Encoder

Encoder主要用来对输入的英语句子进行特征提取,它最后的输出会作为输入传给Decoder。

如下图示,传入的是英文"go away"的one-hot编码,encoder会生成很多hidden states,只不过只会保留最后的hidden state (h, c)。

Encoder

3.2 Decoder

拿到了Encoder的编码结果后,此时Decoder就会开始做预测。

Decoder首次预测

Decoder最开始的输入是起始符号\t,初始状态是Encoder传入的(h,c),基于这些会输出预测概率向量 p,这和图像分类的softmax输出类似。真实的labely就是下一个字符m的one-hot编码,之后我们可以通过计算交叉熵来更新Encoder和Decoder的参数权重。

Decoder重复预测直到预测为终止符

上面只是预测了一个字符,我们还需要不断预测。我们假设前一次预测的概率向量中概率最大的索引刚好就是m这个字符的索引, 即argmax(p)等于index(m),那么Decoder下一个输入值就是m的one-hot编码序列。Decoder按照前面介绍的方式不断做预测,直到预测的字符为终止符号\n

3.3 Inference

假设Seq2Seq模型训练好了,那它的inference流程是什么样的呢?

  • Step 1: 首先Decoder接收Encoder的输入 \((h_0,c_0)\),输入为\t,其输出为\((h_1,c_1)\)m

Seq2Seq Inference Step 1

  • Step 2:之后Decoder的初始状态不再是Encoder的输出,而是上一时刻的\((h_1,c_1)\),其输入也变成了上一时刻预测的m
  • ... 重复上面的操作知道输出为\n就停止inference。

Seq2Seq Inference Step 2

4. 总结

下面给出了利用Keras实现Seq2Seq的示意图,每次给Decoder传入新的输入,计算loss并更新Decoder和Encoder。

Seq2Seq in Keras

下图给出了Seq2Seq更加直观的网络结构示意图。

Seq2Seq Model

参考

微信公众号:AutoML机器学习
MARSGGBO原创
如有意合作或学术讨论欢迎私戳联系~
邮箱:marsggbo@foxmail.com

2021-04-18 22:57:17

posted @ 2021-04-19 15:21  marsggbo  阅读(782)  评论(0编辑  收藏  举报