DeepSeek 相关的主要论文

以下是 DeepSeek 相关的主要论文及其链接,涵盖了其不同版本和研究方向:

1.DeepSeek LLM

• 论文标题:DeepSeek LLM:Scaling Open-Source Language Models with Longtermism

• 发布时间:2024 年 1 月

• 论文链接:https://arxiv.org/abs/2401.02954

• 主要内容:基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本,支持多步学习率调度器,提升训练效率,并在预训练和对齐方面进行了创新。

2.DeepSeekMoE

• 论文标题:DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

• 发布时间:2024 年 1 月

• 论文链接:https://arxiv.org/abs/2401.06066

• 主要内容:提出细粒度专家分割(Fine-Grained Expert Segmentation)和共享专家隔离(Shared Expert Isolation)策略,通过更灵活的专家组合提升模型性能,同时保持计算成本不变。

3.DeepSeek-V2

• 论文标题:DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model

• 发布时间:2024 年 5 月

• 论文链接:https://arxiv.org/abs/2405.04434

• 主要内容:引入多头潜在注意力(MLA)和 DeepSeekMoE 架构,显著减少推理过程中的 KV 缓存,提高推理效率,同时降低训练成本。

4.DeepSeek-V3

• 论文标题:DeepSeek-V3 Technical Report

• 发布时间:2024 年 12 月 27 日

• 论文链接:https://arxiv.org/abs/2412.19437

• 主要内容:总参数量为 671B,每个 token 激活 37B 参数,采用无辅助损失的负载均衡策略和多令牌预测(MTP)训练目标,支持 FP8 混合精度训练,显著降低训练成本。

5.DeepSeek-R1

• 论文标题:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

• 发布时间:2025 年 1 月

• 论文链接:https://arxiv.org/abs/2501.12948

• 主要内容:基于 DeepSeek-V3-Base,通过强化学习(RL)提升推理能力,引入冷启动数据和多阶段训练流程,优化模型的可读性和性能。

6.DeepSeek-R1 蒸馏模型

• 论文标题:Distilling Reasoning Capabilities from DeepSeek-R1 to Smaller Models

• 发布时间:2025 年 1 月

• 论文链接:https://github.com/deepseek-ai/DeepSeek-R1

• 主要内容:将 DeepSeek-R1 的推理能力蒸馏到更小的模型(如 Qwen 和 Llama 系列),蒸馏后的模型在多个基准测试中表现优异,显著超越同类开源模型。

这些论文涵盖了 DeepSeek 系列模型从架构设计到训练优化的多个方面,为研究者提供了丰富的参考资源。

posted @   Philip1992  阅读(183)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
点击右上角即可分享
微信分享提示