2022 年 1月 10 日随笔档案 - Thewillman

2022年1月10日

摘要： Yuan-1.0论文笔记模型架构 LM transformers的decoder，生成类任务效果较好，理解类效果较差，原因在于生成的token只依赖之前的单词，会对后面进行结构掩蔽 PLM 生成一个可见的注意力掩蔽，所以在NLG和NLU任务表现都很好并行策略张量并行在张量并行算法中，模型的层阅读全文

posted @ 2022-01-10 17:00 Thewillman 阅读(331) 评论(1) 推荐(0) 编辑

Thewillman

公告