Day 4 Optimized Parallelism Strategies
- DualPipe - a bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.
https://github.com/deepseek-ai/DualPipehttps://github.com/deepseek-ai/DualPipe
- EPLB - an expert-parallel load balancer for V3/R1.
https://github.com/deepseek-ai/eplbhttps://github.com/deepseek-ai/eplb
- Analyze computation - communication overlap in V3/R1.
https://github.com/deepseek-ai/profile-datahttps://github.com/deepseek-ai/profile-data
Day 3 DeepGEMM - an FP8 GEMM library that supports both dense and MoE GEMMs, powering V3/R1 training and inference.
Day 2 DeepEP - Excited to introduce DeepEP - the first open-source EP communication library for MoE model training and inference.
Day 1 FlashMLA - Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production.
(下面文字主要由 Grok 3 协助生成)
2025 年 2 月 24 日至 2 月 28 日,DeepSeek 举办了一场备受瞩目的“开源周”(Open Source Week),通过连续五天、每天一个项目的节奏,向全球开发者社区开放了五个核心代码库。这一举措不仅展示了 DeepSeek 在人工智能领域的技术积累,也为推动 AI 技术的全民共创提供了宝贵的资源。截至今天(2025 年 2 月 27 日),开源周已进入第四天,公布的内容已在技术圈引发热烈讨论。本文将以技术编辑的视角,详细介绍 DeepSeek 开源周的前四天成果,并展望后续可能的方向。
开源周概览
DeepSeek 是一家致力于通用人工智能(AGI)研究的中国 AI 实验室,以其高效、低成本的模型开发而闻名。此前的 DeepSeek-V3 和 DeepSeek-R1 模型已凭借开源策略和卓越性能挑战了闭源模型的霸主地位。此次开源周延续了这一理念,DeepSeek 表示,这五个代码库均为“经过实战检验”的构建模块,已在生产环境中部署并优化,具备完整的文档支持。这种“从实验室到实战”的开源风格,不仅降低了开发者的使用门槛,也为 AI 社区注入了协作创新的动力。
Day 1:FlashMLA - 高性能解码内核
开源周首日(2 月 24 日),DeepSeek 推出了 FlashMLA,一个针对 NVIDIA Hopper GPU 优化的高效解码内核。FlashMLA 的设计目标是提升大语言模型(LLM)的推理速度,尤其适用于变长序列的处理场景。
技术亮点
-
Hopper GPU 优化:基于 NVIDIA 最新的 Hopper 架构,利用其高带宽内存(HBM3)和 FP8 计算能力,实现高达 3000 GB/s 的吞吐量和 580 TFLOPS 的计算性能。
-
动态序列支持:通过优化的注意力机制和内存管理,FlashMLA 在处理变长输入时显著减少延迟。
-
生产验证:已在 DeepSeek 的在线服务中部署,适用于实时推理任务,如聊天机器人和代码生成。
应用场景
FlashMLA 的开源为需要在边缘设备或云端运行高效推理的开发者提供了利器。例如,在医疗领域的实时诊断分析或金融领域的高频交易中,其低延迟和高吞吐量特性尤为关键。
Day 2:DeepEP - MoE 通信新利器
第二天(2 月 25 日),DeepSeek 发布了 DeepEP,这是首个专为混合专家系统(Mixture of Experts, MoE)设计的开源通信库。MoE 架构因其高效性和可扩展性成为近年来大模型研究的热点,而 DeepEP 则解决了其训练与推理中的通信瓶颈。
技术亮点
-
专家并行(EP)优化:支持节点内(intrenode)和节点间(internode)的低延迟通信,特别适用于分布式训练。
-
硬件适配:兼容 NVIDIA Hopper GPU 的 FP8 计算,并集成低延迟内核,显著提升通信效率。
-
算法启发:受 DeepSeek-V3 论文中“群组限制门控”算法的启发,优化了专家选择和负载均衡。
应用场景
DeepEP 的开源降低了 MoE 模型的开发门槛,使中小型团队也能构建高效的分布式 AI 系统。无论是用于天气预测的超大规模模型,还是国防模拟中的复杂推理任务,DeepEP 都展现了其潜力。
Day 3:DeepGEMM - FP8 矩阵计算的巅峰
第三天(2 月 26 日),DeepSeek 推出了 DeepGEMM,一个支持 FP8 的高效 GEMM(通用矩阵乘法)库。这款工具为 DeepSeek-V3 和 R1 模型的训练与推理提供了核心支持,在 NVIDIA Hopper GPU 上实现了超过 1350 TFLOPS 的峰值性能。
技术亮点
-
FP8 计算:利用 FP8 数据格式减少内存占用,同时加速矩阵运算,相较传统 FP16/FP32 带来显著效率提升。
-
轻量化设计:核心逻辑仅约 300 行代码,无冗余依赖,采用 JIT(即时编译)技术实现实时优化。
-
高性能验证:在 DeepSeek 的生产环境中,DeepGEMM 显著缩短了模型训练时间并降低了能耗。
应用场景
DeepGEMM 的开源为需要高性能矩阵运算的开发者提供了福音。无论是深度学习的训练加速,还是科学计算中的大规模模拟,都堪称“性能怪兽”。
Day 4:Optimized Parallelism Strategies - 优化并行策略
第四天(2月27日),推出主题为“优化并行策略”(Optimized Parallelism Strategies),一次性开源了三个关键库,聚焦于提升大规模模型训练和推理的效率。这些项目均已在 DeepSeek-V3 和 R1 模型的生产环境中得到验证,体现了其“实战导向”的开源理念。
-
DualPipe - 双向管道并行算法
-
简介:DualPipe 是一种创新的双向管道并行算法,旨在优化 DeepSeek-V3 和 R1 模型训练中的计算与通信效率。
-
核心功能:通过重叠前向和后向的计算-通信阶段,实现计算与通信的完全重合,显著减少传统管道并行中的“气泡时间”(pipeline bubbles)。
-
技术价值:提高了训练过程中的资源利用率,尤其适合需要跨节点协作的大规模模型训练。
-
链接:GitHub - deepseek-ai/DualPipe
-
-
EPLB - 专家并行负载均衡器
-
简介:EPLB(Expert-Parallel Load Balancer)是为混合专家系统(MoE)设计的负载均衡工具,专为 DeepSeek-V3 和 R1 优化。
-
核心功能:解决专家并行中 GPU 资源分配不均的问题,确保高效的负载分布,提升整体训练和推理性能。
-
技术价值:增强了 MoE 架构的扩展性,使其在分布式环境中更具实用性。
-
链接:GitHub - deepseek-ai/EPLB: Expert Parallelism Load Balancer
-
-
Profile Data - 计算与通信重叠分析
-
简介:这是一个数据分析项目,用于展示和验证 V3 和 R1 模型训练中计算与通信重叠的效果。
-
核心功能:提供详细的性能剖析数据,帮助开发者理解 DualPipe 等并行策略的实际表现。
-
技术价值:为优化并行算法提供了量化支持,是开发者调试和改进系统的宝贵参考。
-
链接:GitHub - deepseek-ai/profile-data
-
本次开源内容集中体现了 DeepSeek 在并行计算领域的深厚积累。DualPipe 和 EPLB 分别从管道并行和专家并行的角度优化了训练效率,而 Profile Data 则通过数据支持进一步透明化这些技术成果。这些工具不仅适用于 DeepSeek 自身的模型开发,也为社区开发者提供了构建高效分布式 AI 系统的模块化组件。尤其对于从事大模型训练的团队,这三个项目能够显著降低通信瓶颈,提升计算资源利用率,是“从开源到生产”的又一力证。
开源周的意义与展望
截至目前,DeepSeek 开源周的前四天分别聚焦于推理优化(FlashMLA)、分布式通信(DeepEP)、矩阵计算(DeepGEMM)和优化并行策略(Optimized Parallelism Strategies ),形成了从模型推理到训练的完整技术链条。这种模块化开源策略不仅展示了 DeepSeek 的技术深度,也为开发者提供了可直接集成到自身项目中的高质量工具。
已见趋势
-
性能与效率并重:三款工具均强调低成本、高性能,反映了 DeepSeek 在资源受限环境下的创新能力。
-
硬件协同设计:从 Hopper GPU 的深度优化,到 FP8 计算的支持,DeepSeek 的开源项目与硬件趋势紧密结合。
-
社区协作:所有代码已在 GitHub 上开放,鼓励全球开发者参与改进,形成良性生态循环。
后续预测
根据现有信息和 DeepSeek 的技术方向,后续两天可能涉及:
-
Day 5:分布式训练工具:结合 DeepEP 的通信能力,提供大规模模型训练的完整解决方案。
结语
DeepSeek 开源周不仅是一场技术盛宴,更是对 AI 行业格局的一次深刻影响。通过共享经过实战验证的代码库,DeepSeek 打破了技术壁垒,让更多开发者得以站在巨人的肩膀上创新。正如他们所说的“No ivory towers - just pure garage-energy and community-driven innovation”。接下来,我们期待看到更多惊喜,也期待这一开源浪潮如何重塑全球 AI 生态。
对于开发者而言,现在正是时候前往 GitHub 探索这些工具,把玩代码,加入这场技术革命的浪潮!