随笔分类 - 深度学习

多头自注意力复杂度分析方法

摘要：多头自注意力（Multi-Head Self-Attention, MHSA）是 Transformer 结构的核心模块之一，其时间复杂度主要受输入序列长度 ( L ) 和隐藏维度 ( d ) 影响。下面我们详细分析其计算复杂度。 1. 多头自注意力计算流程假设输入张量为：输入： ( X \in 阅读全文

posted @ 2025-02-25 13:00 saulstavo 阅读(11) 评论(0) 推荐(0) 编辑

unbind

摘要：好的！我们来详细讲解 unbind(dim=1) 的作用，并通过示例代码展示它的具体用法。 unbind 详解 unbind(dim=n) 会沿着指定维度 n 进行拆分，并返回一个元组，其中包含若干个 tensor。这些 tensor 是沿着该维度的切片，每个切片会减少一个维度。示例假设你的阅读全文

posted @ 2025-02-25 12:59 saulstavo 阅读(5) 评论(0) 推荐(0) 编辑