摘要: Transformer Model 性质: 1. Transformer是Seq2Seq类模型. 2. ransformer不是RNN. 3.仅依赖attention和全连接层. 准确率远高于RNN类. 各种weights: \(weights \space\space \alpha_{ij} = 阅读全文
posted @ 2021-02-17 17:55 默盒 阅读(243) 评论(0) 推荐(0) 编辑
摘要: Seq2Seq Model 缺陷: ​ 由于Decoder的输入是且仅是Encoder输出在最后的$H_m$, 因此可能会丢失部分前面的信息, 并在序列越长此问题越严重. Attention 如何改进Seq2Seq model的遗忘问题 SimpleRNN + Attention: $S_0$现在不 阅读全文
posted @ 2021-02-17 17:29 默盒 阅读(55) 评论(0) 推荐(0) 编辑