联合会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zrq96
博客园
首页
新随笔
联系
订阅
管理
随笔 - 33
文章 - 0
评论 - 3
阅读 -
16273
2025年2月23日
MLA机制原理及代码研究
摘要: Deepseek-R1现在火出圈了,效果好、成本低,让国人用上了第一梯队的AI。DeepSeek里有很多理论和工程上的创新点,但我认为最核心的,最原创的,是在Deepseek-V2时就提出来的MLA机制(Multi-head Latent Attention,多头隐含注意力)。本文详细走一遍它的数学
阅读全文
posted @ 2025-02-23 22:11 zrq96
阅读(311)
评论(0)
推荐(1)
编辑
我的标签
机器学习
(14)
5G
(14)
深度学习
(6)
知识图
(2)
语义网
(2)
信息检索
(1)
随笔档案
2025年2月(1)
2024年12月(4)
2024年11月(4)
2024年10月(4)
2024年9月(3)
2024年8月(3)
2022年8月(1)
2020年6月(10)
2019年1月(3)
点击右上角即可分享