2024 年 3月 23 日随笔档案 - deephub

2024年3月23日

摘要：提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力，如FlashAttention，以及利用多设备的分布式系统，如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态，而不是依赖于高带宽存储器(HBM)来提高注意力计算阅读全文

posted @ 2024-03-23 13:21 deephub 阅读(21) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告