2025 年 2月 5 日随笔档案 - stardsd

2025年2月5日

多头潜在注意力（Multi-Head Latent Attention，MLA）

摘要：在 DeepSeek 模型中，多头潜在注意力（Multi-Head Latent Attention，MLA）是一种关键技术，旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键（Key）和值（Value）进行低秩联合压缩，显著减少了推理过程中的键值缓存（KV Cache），在阅读全文

posted @ 2025-02-05 16:51 stardsd 阅读(1735) 评论(0) 推荐(0) 编辑

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

公告

慎终如始宁静致远