您的位置:首页 > 娱乐 > 八卦 > 河源seo排名_横沥网站设计_西安seo服务外包_网站免费推广软件

河源seo排名_横沥网站设计_西安seo服务外包_网站免费推广软件

2025/2/24 19:18:46 来源:https://blog.csdn.net/weixin_42437114/article/details/144359605  浏览:    关键词:河源seo排名_横沥网站设计_西安seo服务外包_网站免费推广软件
河源seo排名_横沥网站设计_西安seo服务外包_网站免费推广软件

Contents

  • Introduction
  • Method
  • Experiments
  • References

Introduction

  • 作者提出 Reinforced Fine-Tuning (ReFT) 进行在线强化学习,帮助模型输出正确的推理步骤,总体感觉在线学习的思路和 STaR 非常相似,就是把 SFT 换成了 PPO…

Method

  • Warm-up. 在 CoT 数据集上 SFT 使得模型能输出中间推理步骤
  • Reinforcement Learning. 使用 PPOonline self-learning. 给定数据集中的样本,模型采样输出中间推理步骤和推理结果,如果推理正确 (和 GT label 比较),则该样本 reward 为 1,反之为 0;对于答案是数值的问题,如果答案错误但能从回答中抽取出数值回答,则 reward 设为 0.1 来缓解 sparse reward;上述过程不断迭代进行在线学习
    在这里插入图片描述

Experiments

  • ReFT Outperforms SFT. Online-Self-Training 就是把 PPO 优化换成 SFT,下表说明 PPO 优化的效果要明显好于 SFT
    在这里插入图片描述
  • Reward Hacking for MathQA. 作者发现 MathQA 数据集上存在 Reward Hacking 现象,如下所示,虽然推理过程出错但模型由于输出的答案根本不在四个选项里,所以靠蒙选到了正确的结果,这导致在训练的时候该条数据 reward 被标为 1,进而严重影响模型精度;对此作者对 MathQA 使用 longer warm-up steps 来缓解该现象,但这里归根结底还是因为没有去评估每个推理步的正确性导致 Reward Hacking
    在这里插入图片描述比较有意思的是,作者去掉多选选项之后重新做 ReFT,发现能有效缓解 Reward Hacking (Q. 不过作者这里不用多选之后相当于少了先验信息,因此模型精度也掉了不少,如果用去掉多选选项后的 ReFT 模型重新做多选题会得到比直接在多选题上 ReFT 更好的结果吗?)
    在这里插入图片描述

References

  • Luong, Trung Quoc, et al. “Reft: Reasoning with reinforced fine-tuning.” arXiv preprint arXiv:2401.08967 (2024).
  • code: https://github.com/lqtrung1998/mwp_ReFT

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com