返回顶部
摘要: Yuan-1.0论文笔记 模型架构 LM transformers的decoder,生成类任务效果较好,理解类效果较差,原因在于生成的token只依赖之前的单词,会对后面进行结构掩蔽 PLM 生成一个可见的注意力掩蔽,所以在NLG和NLU任务表现都很好 并行策略 张量并行 在张量并行算法中,模型的层 阅读全文
posted @ 2022-01-10 17:00 Thewillman 阅读(327) 评论(1) 推荐(0) 编辑