摘要: 推荐学习顺序:周志华《机器学习》->《深度学习进阶:自然语言处理》->RNN->LSTM->seq2seq->transformer 一些要用到的参数 Dmodel:模型的维度,或者说词语token经过了embedding层后变成词向量的维度。这里取512维。 DK DV:分别代表编码器和解码器的多 阅读全文
posted @ 2023-09-18 17:59 namezhyp 阅读(349) 评论(0) 推荐(0) 编辑