摘要: 提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算 阅读全文
posted @ 2024-03-23 13:21 deephub 阅读(12) 评论(0) 推荐(0) 编辑