1. LLM的后训练分类
-
Fine-tuning
-
Reinforcement Learning
-
Test-time Scaling
方法 | 优点 | 缺点 |
Fine-tuning | 任务适应性:能够针对特定任务或领域进行优化,提升模型在该任务上的性能。 数据驱动优化:利用标注数据直接调整模型参数,使模型更好地符合任务要求。 广泛适用性:适用于多种任务,包括文本生成、问答、分类等。 | 过拟合风险:可能导致模型在训练数据上表现良好,但在未见过的数据上性能下降。 计算成本高:需要对整个模型或大量参数进行更新,计算资源消耗大。 |
Reinforcement Learning | 动态优化:能够根据环境反馈动态调整策略,优化长期目标。 适应性强:可以处理复杂的、动态变化的任务,如对话生成、多步推理等。 对齐用户意图:通过奖励信号优化模型输出,使其更符合人类偏好。 | 奖励函数设计复杂:需要精心设计奖励函数,以避免奖励误导或奖励黑客问题。 |
Test-time Scaling | 推理时优化:在推理阶段动态调整模型行为,无需重新训练模型。 | 推理延迟增加:在某些情况下,如使用复杂的搜索策略,可能导致推理时间延长。 |
2. 微调
3. 强化学习
4. Test Time Scaling(测试时扩展)
5. 参考
https://arxiv.org/pdf/2502.21321
https://github.com/mbzuai-oryx/Awesome-LLM-Post-training