Notes | Bert系列的预训练模型

参考：

李宏毅《深度学习人类语言处理》

ELMo Embeddings from Language Models

BERT Bidirectional Encoder Representations from Transformers

ERNIE Enhanced Representation through Knowledge Integration

Grover Generating aRticles by Only Viewing mEtadata Records

Big Bird Big Bird: Transformers for Longer Sequences

共同点：

contxtualized word embedding (base model):

LSTM
Self-attention layers
Tree-based models （注重文法，但一般表现不佳，只有在文法结构非常清晰严谨的情况下表现好）

模型变小

Distill BERT
Tiny BERT
Mobile BERT
Q8BERT
ALBERT

小模型方法：

Network Compression

Network Pruning 剪枝
Knowledge Distillation 知识蒸馏
Parameter Quantization 参数量化
Architecture Design 结构设计

网络结构改进

Transformer-XL (XLNet使用)：跨块级结构的attention，不仅局限于max-len(512)的长度

Reformer、Longformer、Big Bird：减少self-attention的复杂度

训练方法

Predict Next Token (self-supervised):

language models:

LSTM:

ELMo (双向LSTM)

　　不是真正的双向，预测一个token时，不是真正地看到两边的内容，而是两个单向LSTM能力的拼接。

Universal Language Model Fine-tuning (ULMFiT)

Self-attention:

这里可以attention的位置要有约束（目标是预测下一个token，不能看到未来的token答案）

绿色部分是可以attention的部分。

GPT系列
Megatron
BERT (mask机制，用transformer作为encoder，预测某一个masked token时，可以看到上下文信息，类似CBOW的思想）

Span Boundary Objective (SBO)

SpanBERT提出，用mask的一个完整span的左右边界来预测span内指定的某一个masked token。

预测token是否被mask

ELECTRA: Efficiently Learning an Encoder thtat Classifies Token Replacements Accurately

预测是否被是被小BERT置换过的词：

其中，小BERT模型随机选一个token进行mask，small BERT为这个masked token还原成它认为对的词。

NSP 预测是否是下一个句子

BERT：Next sentence prediction

RoBERTa 指出该预测方法没有用。

SOP Sentence order prediction

ALBERT中使用。

structBERT (Alice) 有用到类似的（将 NSP 与 SOP 结合）

Mask机制改进

whole word masking(WWM) 整个词的mask

ERNIE: Phrase-level & Entity-level 短语&命名实体级别

SpanBert: 盖住n个token

seq2seq model

破坏输入进行预测：

MASS: MAsked Sequence to Sequence pre-training（下图红框）

BART: Bidirectional and Auto-Regressive Transformers（下图蓝框）

BART给出了更多破坏输入进行预测的方式。

结论：Permutation 和 Rotation的效果不好；Text Infilling的效果好。

UniLM：模型可以是encoder decoder seq2seq的任意模型

同时进行多种训练：

Bidirectional LM
Left-to-Right LM
Seq-to-Seq LM

预训练方法对比：

Transfer Text-to-Text Transformer (T5) ，其中的训练集为C4。

加入知识：

清华的ERNIE。

posted @ 2020-10-09 16:57 山竹小果阅读(1111) 评论(0) 编辑收藏举报

刷新页面返回顶部