注:完整技术路径示意图可参考DeepSeek官方GitHub提供的训练流程图。该流程通过多阶段迭代,最终使模型在保持通用能力的同时,获得顶尖的数学推理性能。
一、技术路径示意图(文字版)
[基础模型] → [冷启动阶段] → [监督微调(SFT)] ↓ ↗
[GRPO强化学习] ← [拒绝采样] ↓ ↓
[通用RL训练] → [蒸馏部署]
二、训练流程详解(附关键技术说明)
1. 冷启动阶段(阶段1)
• 输入:DeepSeek-V3-Base(未微调的基础模型)
• 核心操作:
- 收集3,000条高质量长推理链数据,包含数学/编程问题的分步解答
- 使用结构化模板强制模型输出:
<推理过程> {详细推导步骤} </推理过程> <摘要> {最终答案} </摘要>
• 创新点:
- 融合少样本提示
- 人工修正AI生成的错误步骤(来自DeepSeek-R1-Zero的输出)
2. 监督微调(SFT)(阶段2)
• 输入:冷启动后的模型
• 数据构成:
数据类型 | 样本量 | 来源 |
---|---|---|
数学推理 | 60万 | GRPO模型生成 + 过滤 |
编程竞赛解答 | 20万 | Codeforces历史题库 |
科学问题推导 | 10万 | GPQA等学术数据集 |
• 训练策略:
- 两阶段微调:先推理任务后通用任务
- 引入多Token预测(MTP)提升生成稳定性
3. 推理导向强化学习(阶段3)
• 算法核心:Group Relative Policy Optimization (GRPO)
# 简化版GRPO流程
for 每个问题q:生成5个候选答案{o1,o2,...,o5}计算组内奖励均值μ = avg(r1,r2,...,r5)计算相对优势:advantage = (ri - μ)/σ更新策略模型πθ
• 奖励设计:
- 规则奖励(数学/编程):
◦ 答案正确性(40%权重)
◦ 推导步骤完整性(30%)
◦ 格式规范性(30%) - 语言一致性奖励(解决中英混杂问题)
4. 拒绝采样与数据增强(阶段4)
- 生成流程:
- 用阶段3模型生成100万候选回答
- 基于DeepSeek-V3奖励模型过滤:
◦ 保留Top 20%准确样本
◦ 剔除语言混杂/逻辑矛盾样本 - 人工审核10%边界案例
- 最终数据集:
◦ 80万高质量样本(600k推理 + 200k通用)
5. 通用强化学习(阶段5)
- 混合奖励机制:
- 训练技巧:
• 动态课程学习:从易到难调整任务难度
• 分层KL约束:控制策略更新幅度
6. 蒸馏部署(阶段6)
- 蒸馏策略:
模型规模 蒸馏数据量 性能保留率 7B 20万 89% 70B 80万 97% - 部署优化:
• 使用多头潜在注意力(MLA)降低显存占用
• 支持动态批处理(max_batch_size=128)
三、性能验证(关键指标)
测试集 | R1-70B | OpenAI-O1 | 提升幅度 |
---|---|---|---|
AIME2024 | 71% | 63.6% | +7.4% |
Codeforces评分 | 2029 | 1843 | +10% |
MATH-500 | 97.3% | 94.8% | +2.5% |
四、创新价值解读
- 算法突破:GRPO相比传统PPO降低40%显存消耗
- 数据工程:80万精标数据实现小模型逆袭
- 训练范式:首次实现纯RL路径培养推理能力
- 工程实践:支持128K上下文长度