2025 年 2月 23 日随笔档案 - zrq96

2025年2月23日

摘要： Deepseek-R1现在火出圈了，效果好、成本低，让国人用上了第一梯队的AI。DeepSeek里有很多理论和工程上的创新点，但我认为最核心的，最原创的，是在Deepseek-V2时就提出来的MLA机制（Multi-head Latent Attention，多头隐含注意力）。本文详细走一遍它的数学阅读全文

posted @ 2025-02-23 22:11 zrq96 阅读(311) 评论(0) 推荐(1) 编辑

zrq96

我的标签

随笔档案