摘要: 1.在Transformer中实现单向语言模型如图所示,Attention矩阵的每一行事实上代表着输出,而每一列代表着输入,而Attention矩阵就表示输出和输入的关联。对于句子“北京欢迎你”,假定白色方格都代表0,那么第1行表示“北”只能跟起始标记<s>相关了,而第2行就表示“京”只能跟起始标记 阅读全文
posted @ 2020-03-06 17:16 JetHu 阅读(808) 评论(0) 推荐(0) 编辑