摘要: 1.原理 ALibi( ATTENTION WITH LINEAR BIASES) 也是一种位置编码, 与在词向量中添加位置信息不同。ALibi不对词向量进行任何操作,而是在Query和Key点积之后添加一个静态的、非学习型的偏差: \(softmax(Q_iK^T + m * [-(i - 1), 阅读全文
posted @ 2024-12-21 16:40 博客员626 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1.背景 注意力机制本身没有获取位置信息的能力,对于transformer来说"Hello world"和"world Hello"两句话中的"Hello"张量是完全相同的,即使两句话中的相同Hello可能有不同的表达含义,所以需要在输入信息中添加位置信息 2.原理 transformer中KQV都 阅读全文
posted @ 2024-12-13 15:47 博客员626 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 1.原理 多头注意力机制中的每个头都会处理整个输入序列,相比于单头注意力模型来说,不同之处是每个头都专注于输入的不同特征子空间,因为每个头的KV权重不同。 多头注意力机制中,每个头的输出会被拼接起来,再经过一个线性层投影到与单头注意力相同大小的输出。这样做的目的是融合不同头得到的特征信息。 阅读全文
posted @ 2024-12-11 19:17 博客员626 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 1.原理 针对transformer模型的模型并行方法,利用矩阵乘法的特性,将每个层切开,放入不同GPU中。 对于注意力层,是按注意力头进行切分; 对于MLP层,是按矩阵列进行切分。整个执行流程中,每个层的需要进行数据通信,因为对于矩阵切分后的乘法要得到最终的结果需要每个分块的结果进行矩阵加。 2. 阅读全文
posted @ 2024-12-10 12:52 博客员626 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 1.原理 与CPU的流水线的方法相同,Gpipe将模型分成多个块,每个块含有原模型的数个层。将每个块放在不同的GPU上,实现模型的流水线执行。 只对模型进行切分实际上并没有达到并行的效果,因为是按照模型的层进行切分,不同层之间的前向传播和反向传播存在同步关系,所以无法并行执行。 所以在模型切分的基础 阅读全文
posted @ 2024-12-09 13:32 博客员626 阅读(3) 评论(0) 推荐(0) 编辑