摘要: Transformer 最近看了Attention Is All You Need这篇经典论文。论文里有很多地方描述都很模糊,后来是看了参考文献里其他人的源码分析文章才算是打通整个流程。记录一下。 Transformer整体结构 数据流梳理 符号含义速查 N: batch size T: 一个句子的 阅读全文
posted @ 2018-12-20 10:26 匡子语 阅读(1210) 评论(0) 推荐(0) 编辑