文章目录
- Abstract
- 1. Introduction
- 2. Approach
- 2.1. Overview
- 2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
- 2.3. DeepSeek-R1: Reinforcement Learning with Cold Start
- 2.4. Distillation: Empower Small Models with Reasoning Capability
- 3. Experiment
- 3.1. DeepSeek-R1 Evaluation
- 3.2. Distilled Model Evaluation
- 4. Discussion
- 4.1. Distillation v.s. Reinforcement Learning
- 4.2. Unsuccessful Attempts
- 5. Conclusion, Limitation, and Future Work
DeepSeek-R1 论文
Abstract
本文介绍了 DeepSeek-R1 系列推理模型,包括 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,未经过监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然地发展出多种强大且有趣的推理行为。然而,它在可读性和语言混合方面面临挑战。为解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前引入了少量冷启动数据和多阶段训练流程。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B),基于 Qwen 和 Llama。
1. Introduction
近年来,大型语言模型(LLMs)迅速发展,逐渐接近通用人工智能(AGI)。后训练已成为完整训练流程的重要组成部分,能够提升模型在推理任务上的准确性、与社会价值观的对齐以及对用户偏好的适应性。OpenAI 的 o1 系列模型通过增加推理过程的长度,首次引入了推理时间扩展,显著提升了数学、编程和科学推理等任务的性能。然而,有效的测试时扩展仍然是研究社区的一个开放性问题。本文首次尝试通过纯强化学习(RL)提升语言模型的推理能力,探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,重点关注通过纯 RL 过程的自我进化。
2. Approach
2.1. Overview
本文展示了通过大规模强化学习(RL)提升模型推理能力的可能性,即使不依赖监督微调(SFT)作为冷启动。我们介绍了:(1)DeepSeek-R1-Zero,直接在基础模型上应用 RL,不依赖任何 SFT 数据;(2)DeepSeek-R1,从经过少量长推理链(CoT)示例微调的基础模型开始应用 RL;(3)将 DeepSeek-R1 的推理能力蒸馏到较小的密集模型中。
2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
DeepSeek-R1-Zero 通过纯强化学习(RL)直接从基础模型开始训练,不依赖任何监督微调(SFT)数据。该模型在推理任务上表现出色,例如在 AIME 2024 上的 pass@1 分数从 15.6% 提升到 71.0%,通过多数投票进一步提升到 86.7%,与 OpenAI-o1-0912 相当。然而,DeepSeek-R1-Zero 在可读性和语言混合方面存在问题。为解决这些问题,我们引入了 DeepSeek-R1。
2.3. DeepSeek-R1: Reinforcement Learning with Cold Start
DeepSeek-R1 在 RL 之前引入了少量冷启动数据和多阶段训练流程。冷启动数据提高了模型的可读性,并为推理能力的发展提供了更好的起点。推理导向的 RL 进一步提升了模型的推理性能,尤其是在数学、编程和逻辑推理任务上。通过拒绝采样和监督微调(SFT),我们在推理和其他领域生成了新的训练数据,进一步优化了模型。最终,DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。
2.4. Distillation: Empower Small Models with Reasoning Capability
我们通过蒸馏技术将 DeepSeek-R1 的推理能力转移到较小的密集模型中。使用 Qwen 和 Llama 作为基础模型,蒸馏后的模型在推理任务上表现出色,显著优于其他开源模型。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,超过了 QwQ-32B-Preview。
3. Experiment
3.1. DeepSeek-R1 Evaluation
DeepSeek-R1 在多项基准测试中表现出色,与 OpenAI-o1-1217 相当。例如,在 AIME 2024 上达到了 79.8% 的 pass@1 分数,在 MATH-500 上达到了 97.3%。在编程任务上,DeepSeek-R1 在 Codeforces 上达到了 96.3% 的百分位数,在 LiveCodeBench 上达到了 65.9% 的 pass@1 分数。在知识类基准测试中,DeepSeek-R1 在 MMLU 上达到了 90.8%,在 GPQA Diamond 上达到了 71.5%。在开放式生成任务中,DeepSeek-R1 在 AlpacaEval 2.0 上达到了 87.6% 的长度控制胜率,在 Arena-Hard 上达到了 92.3% 的胜率。
3.2. Distilled Model Evaluation
蒸馏后的模型在推理任务上表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,DeepSeek-R1-Distill-Qwen-32B 在 MATH-500 上达到了 94.3%。这些结果表明,通过蒸馏技术可以将大型模型的推理能力有效地转移到较小的模型中。
4. Discussion
4.1. Distillation v.s. Reinforcement Learning
蒸馏技术在提升小模型推理能力方面表现出色,而直接在小模型上应用大规模 RL 的效果有限。这表明大型基础模型的推理模式对提升推理能力至关重要。
4.2. Unsuccessful Attempts
在开发 DeepSeek-R1 的过程中,我们也尝试了其他方法,如过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS),但这些方法在大规模训练中面临挑战,未能取得预期的效果。
5. Conclusion, Limitation, and Future Work
DeepSeek-R1 通过强化学习显著提升了推理能力,并通过蒸馏技术将这些能力转移到较小的模型中。未来,我们计划在以下几个方向进行研究:
- 通用能力提升:探索如何利用长推理链提升 DeepSeek-R1 在多轮对话、复杂角色扮演等任务中的表现。
- 语言混合问题:解决 DeepSeek-R1 在处理非中文和英语查询时的语言混合问题。
- 提示工程:优化提示设计,减少对少样本提示的敏感性。
- 软件工程任务:通过异步评估提升 RL 过程的效率,改善软件工程任务的表现。