摘要: Transofrmer翻译任务的工作流程 注意力Pad掩码的获得 因为输入句子需要统一长度,肯定会填充Pad特殊字符,Pad特殊字符在word embedding中的数值为0。 提前生成好注意力机制中Pad的掩码。 假设句子长度为Len,那就生成一个Len x Len 矩阵,将其Pad位置,也就是输 阅读全文
posted @ 2023-10-30 15:33 Laplace蒜子 阅读(62) 评论(0) 推荐(0) 编辑