摘要: 在消耗算力上,Transformers 结构包括三部分的操作符,了解这些知识可以帮助分析性能瓶颈。 一、张量缩并 Tensor Contractions 线性层和多头注意力组件都要进行批量矩阵-矩阵乘法。这些操作是训练Transformer中最compute-intensive的部分。 二、统计归一 阅读全文
posted @ 2023-03-22 15:34 地球美好不 阅读(180) 评论(0) 推荐(0) 编辑