5分钟NLP:从 Bag of Words 到 Transformer 的时间年表总结
本文不是 NLP 研究的完整列表,因为太多了无法总结的这么完整!但是本文对影响NLP研究的一些重要的模型进行总结,并尽量让它简约而不是简单,如果你刚刚进入NLP领域,本文可以作为深入研究该领域的起点。
Bag of Words (BOW) [1954]:计算文档中每个单词的出现次数并将其用作特征。
TF-IDF [1972]:修改 BOW 分数,使稀有词得分高,普通词得分低。
Word2Vec [2013]:每个单词都映射到一个称为单词嵌入的高维向量,该向量捕获其语义。词嵌入是通过神经网络在大型语料库上寻找词相关性来学习的。
RNN [1986]:RNNs 利用句子中的单词上下文计算文档嵌入。后来演变为 LSTM [1997] 以捕获长期依赖关系,并演变为 Bidirectional RNN [1997] 以捕获从左到右和从右到左的依赖关系。最后Encoder-Decoder RNNs [2014] 出现了,其中一个 RNN 创建文档嵌入(即编码器),另一个 RNN 将其解码为文本(即解码器)。
Transformer [2017]:一种编码器-解码器模型,它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。
BERT [2018]:双向 Transformer 使用掩蔽语言建模和下一句预测目标的组合进行预训练。它使用全球关注。
GPT [2018]:第一个基于 Transformer 架构的自回归模型。后来演变成 GPT-2 [2019],这是在 WebText 上预训练的更大和优化的 GPT 版本,以及 GPT-3 [2020],在 Common Crawl 上预训练的更大和优化的 GPT-2 版本。
CTRL [2019]:类似于 GPT,但带有用于条件文本生成的控制代码。
Transformer-XL [2019]:它是一个自回归 Transformer,可以重用先前计算的隐藏状态来处理更长的上下文。
ALBERT [2019]:BERT 的轻量级版本,其中(1)下一句预测被句子顺序预测取代,(2)参数减少技术用于降低内存消耗和更快的训练。
RoBERTa [2019]:BERT 的更好版本,其中 (1) Masked Language Modeling 目标是动态的,(2) Next Sentence Prediction 目标被删除,(3) 使用 BPE 标记器 (4) 使用更好的超参数.
XLM [2019]:使用因果语言建模、掩码遮蔽语言建模和翻译语言建模等目标在多种语言的语料库上进行预训练的 Transformer。
XLNet [2019]:Transformer-XL 具有广义的自回归预训练方法,可以学习双向依赖。
完整文章:
https://www.overfit.cn/post/28e65563957f49f2ad9d7ddbbc331f4c