DeepSeek开源周技术全景

2024年2月24日至28日，国内AI领军企业DeepSeek以"开放即进化"为核心理念，举办了一场震动全球AI社区的"开源周"。在这场持续五天的技术盛宴中，DeepSeek连续发布了5款核心开源项目，覆盖算法优化、通信加速、矩阵计算、并行策略、数据存储全栈技术领域，展现出国产AI在底层技术上的突破性实力。其开源项目不仅以代码量为单位实现效率跃升（如300行代码定义矩阵乘法新范式），更通过真实场景测试数据证明：国产技术已具备重构全球AI基础设施的潜力。

第一天 FlashMLA

DeepSeek（深度求索）发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息，FlashMLA是适用于Hopper GPU（一种英伟达图形处理器架构）的高效MLA（多头潜注意力）解码内核，针对可变长度序列服务进行了优化。

https://github.com/deepseek-ai/DeepEP

FlashMLA 的主要应用场景包括：

长序列处理：适合处理数千个标记的文本，如文档分析或长对话。

实时应用：如聊天机器人、虚拟助手和实时翻译系统，降低延迟。

资源效率：减少内存和计算需求，便于在边缘设备上部署。

目前 AI 训练或推理主要依赖英伟达 H100 / H800，但软件生态还在完善。

由于 FlashMLA 的开源，未来它可以被集成到 vLLM（高效 LLM 推理框架）、Hugging Face Transformers 或 Llama.cpp（轻量级 LLM 推理）生态中，从而有望让开源大语言模型（如 LLaMA、Mistral、Falcon）运行得更高效。

同样的资源，能干更多的活，还省钱。

因为 FlashMLA 拥有更高的计算效率（580 TFLOPS）和更好的内存带宽优化（3000 GB/s），同样的 GPU 资源就可以处理更多请求，从而降低单位推理成本。

对于 AI 公司或者云计算服务商来说，使用 FlashMLA 也就意味着更低的成本、更快的推理，让更多 AI 公司、学术机构、企业用户直接受益，提高 GPU 资源的利用率。

第二天 DeepEP

发布专家并行通信库 DeepEP：首个面向MoE模型的开源EP通信库，支持实现了混合专家模型训练推理的全栈优化！

https://github.com/deepseek-ai/FlashMLA

DeepEP 的核心亮点

✅ 高效优化的 All-to-All 通信： DeepEP 提供了高性能、低延迟的 GPU 集群内和集群间 all-to-all 通信内核，这正是 MoE 模型中专家路由和组合的关键所在。你可以把它理解为 MoE 模型数据高速公路的升级版！

✅ 集群内 (Intranode) 和集群间 (Internode) 全面支持：无论是单机多卡，还是多机多卡，DeepEP 都能完美驾驭。它充分利用 NVLink 和 RDMA 等高速互联技术，最大化通信带宽

✅ 训练和推理预填充 (Prefilling) 的高性能内核：对于模型训练和推理预填充阶段，DeepEP 提供了高吞吐量的内核，保证数据传输速度，加速模型迭代和部署

✅ 推理解码 (Decoding) 的低延迟内核：针对对延迟敏感的推理解码场景，DeepEP 也准备了低延迟内核，采用纯 RDMA 通信，最大限度减少延迟，让你的模型响应更快！

✅ 原生 FP8 精度支持：紧跟前沿技术，DeepEP 原生支持 FP8 低精度运算，进一步提升计算效率，节省显存

✅ 灵活的 GPU 资源控制，实现计算-通信重叠： DeepEP 支持精细化的 SM (Streaming Multiprocessors) 数量控制，并引入了基于 Hook 的通信-计算重叠方法，巧妙地在后台进行通信，不占用宝贵的 GPU 计算资源！这意味着什么？你的 GPU 可以更专注于计算，通信交给 DeepEP 在幕后默默加速！

第三天 DeepGEMM

DeepGEMM是一个专注于为FP8高效通用矩阵乘法（GEMM）库，支持普通及混合专家（MoE）分组的矩阵计算需求，可动态优化资源分配以提升算力效率。值得一提的是，DeepGEMM设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持，尤其针对Hopper架构GPU（如H800）优化，兼顾高性能与低成本。

https://github.com/deepseek-ai/DeepGEMM