会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
赏月斋
慎终如始 宁静致远
博客园
首页
新随笔
联系
订阅
管理
2025年2月5日
多头潜在注意力(Multi-Head Latent Attention,MLA)
摘要: 在 DeepSeek 模型中,多头潜在注意力(Multi-Head Latent Attention,MLA) 是一种关键技术,旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键(Key)和值(Value)进行低秩联合压缩,显著减少了推理过程中的键值缓存(KV Cache),在
阅读全文
posted @ 2025-02-05 16:51 stardsd
阅读(1735)
评论(0)
推荐(0)
编辑
公告