随笔分类 - 深度学习
摘要:多头自注意力(Multi-Head Self-Attention, MHSA)是 Transformer 结构的核心模块之一,其时间复杂度主要受输入序列长度 ( L ) 和隐藏维度 ( d ) 影响。下面我们详细分析其计算复杂度。 1. 多头自注意力计算流程 假设输入张量为: 输入: ( X \in
阅读全文
摘要:好的!我们来详细讲解 unbind(dim=1) 的作用,并通过示例代码展示它的具体用法。 unbind 详解 unbind(dim=n) 会沿着指定维度 n 进行拆分,并返回一个 元组,其中包含若干个 tensor。这些 tensor 是沿着该维度的切片,每个切片会 减少一个维度。 示例 假设你的
阅读全文