摘要: 训练过程为什么需要 Mask 机制? 两个原因。 1. 屏蔽未来信息,防止未来帧参与训练。 2. 处理不同长度的序列,在批处理时对较短的序列进行填充(padding),并确保这些填充不会影响到模型的输出。 mask机制如何实现? 1. 屏蔽未来信息的 Mask:在自注意力层中,通过构造一个上三角矩阵 阅读全文
posted @ 2024-09-23 14:30 15375357604 阅读(2) 评论(0) 推荐(0) 编辑