摘要:
引入 2018年底发布的BERT模型和2019年初发布的GPT-2模型,开始挑战人类的语言处理能力。二者都基于之前介绍过的Transformer基础模型。 对模型的研究有几个层次:研究基础模型、扩展模型、应用模型 研究基础模型 我们熟知的卷积神经网络CNN,... 阅读全文
摘要:
引入 Transformer-XL超长上下文的注意力模型,出自CMU和Google Brain在2019年1月发表的论文:《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Cont... 阅读全文