会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zrq96
博客园
首页
新随笔
联系
订阅
管理
02 2025 档案
MLA机制原理及代码研究
摘要:Deepseek-R1现在火出圈了,效果好、成本低,让国人用上了第一梯队的AI。DeepSeek里有很多理论和工程上的创新点,但我认为最核心的,最原创的,是在Deepseek-V2时就提出来的MLA机制(Multi-head Latent Attention,多头隐含注意力)。本文详细走一遍它的数学
阅读全文
posted @
2025-02-23 22:11
zrq96
阅读(162)
评论(0)
推荐(1)
编辑