摘要: 在这篇博客中,我们将通过一个端到端的示例来讲解 Transformer 模型中的数学原理。我们的目标是对模型的工作原理有一个良好的理解。为了使内容易于理解,我们会进行大量简化。我们将减少模型的维度,以便我们可以手动推理模型的计算过程。例如,我们将使用 4 维的嵌入向量代替原始的 512 维嵌入向量。 阅读全文
posted @ 2024-01-29 21:44 HuggingFace 阅读(337) 评论(0) 推荐(0) 编辑