摘要: 一、背景与算法介绍 Transformer结构被广泛应用与自然语言处理中,并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果,研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中,每层参数的数量超过了5亿(0.5B),而层的数量增加到了64层。Transformer 阅读全文
posted @ 2020-02-07 23:03 光彩照人 阅读(2966) 评论(0) 推荐(2) 编辑