摘要: Bert Bert的架构就是Transformer Encoder的架构。 Bert可以预测盖住的tokens: Bert的输入: 随机盖住输入的一些tokens。 方法一:把要盖住的tokens换成特殊的tokens,如mask; 方法二:把要盖住的tokens换成随机的一些tokens。 作用: 阅读全文
posted @ 2022-11-06 17:02 Linqylin 阅读(127) 评论(0) 推荐(0) 编辑
摘要: Transformer 它是一个Sequence-to-sequence(Seq2seq)模型,输入一个序列,输出也是一个序列,但是输出序列的长度不知道,是由机器决定的。 Seq2seq可以解决语音识别、机器翻译、语音翻译、QA、文法剖析、多标签分类等问题。 Seq2seq模型有两部分,分别为Enc 阅读全文
posted @ 2022-11-06 16:56 Linqylin 阅读(102) 评论(0) 推荐(0) 编辑