随笔 - 264  文章 - 3  评论 - 4251  阅读 - 311万
  2025年2月16日
摘要: 关注公众号回复1 获取一线、总监、高管《管理秘籍》 结合近期对DeepSeek的探索,对之前文章的内容做一些更新,主要是两个方面:训练过程的优化策略GRPO,以及架构侧的一个创新MLA。 MLA MLA,被认为是实现DeepSeek高效推理和低成本训练的核心技术。 MHA(多头注意力)通过多个注意力 阅读全文
posted @ 2025-02-16 10:27 叶小钗 阅读(259) 评论(0) 推荐(1) 编辑
< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示