Contextualized Word Embedding-ELMO/BERT/GPT

参考这篇文章:

https://www.cnblogs.com/dogecheng/p/11615750.html

 

我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized Word Embedding。

 

BERT 是 Transformer 的 Encoder,GPT则是 Transformer 的 Decoder。GPT 输入一些词汇,预测接下来的词汇。其计算过程如下图所示。

 

 

 

 

先记到这里吧,其他好像也没有特别需要记录的。

 

posted @ 2022-02-16 21:42  blcblc  阅读(116)  评论(0编辑  收藏  举报