02 2025 档案

摘要:Deepseek-R1现在火出圈了,效果好、成本低,让国人用上了第一梯队的AI。DeepSeek里有很多理论和工程上的创新点,但我认为最核心的,最原创的,是在Deepseek-V2时就提出来的MLA机制(Multi-head Latent Attention,多头隐含注意力)。本文详细走一遍它的数学 阅读全文
posted @ 2025-02-23 22:11 zrq96 阅读(162) 评论(0) 推荐(1) 编辑