您的位置：首页 > 游戏 > 游戏 > 【LLM:Fan】

【LLM:Fan】

2025/2/24 23:42:47 来源：https://blog.csdn.net/abclyq/article/details/142249045 浏览: 次关键词：【LLM:Fan】

扩展指令微调语言模型

有什么新内容？

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

本文探讨了扩展指令微调(opens in a new tab)的好处，以及它如何提高各种模型（PaLM、T5）、提示设置（零样本、少样本、CoT）和基准（MMLU、TyDiQA）的性能。这是通过以下方面来探讨的：扩展任务数量（1.8K个任务）、扩展模型大小以及在思维链数据上微调（使用了9个数据集）。

微调过程：

1.8K个任务被表述为指令，并用于微调模型
使用有范例和无范例、有CoT和无CoT的方式

微调任务和保留任务如下：

能力和关键结果

指令微调随着任务数量和模型大小的增加而扩展良好；这表明需要进一步扩展任务数量和模型大小
将CoT数据集添加到微调中可以在推理任务上获得良好的性能
Flan-PaLM具有改进的多语言能力；在一次性TyDiQA上提高了14.9%；在代表性不足的语言中进行算术推理的提高了8.1%
Plan-PaLM在开放式生成问题上也表现良好，这是改进可用性的良好指标
改进了负责任的AI（RAI）基准的性能
Flan-T5指令微调模型展示了强大的少样本能力，并且优于T5等公共检查点

**扩展微调任务数量和模型大小的结果：**同时扩展模型大小和微调任务数量预计将继续改善性能，尽管扩展任务数量的回报已经减少。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

**在非CoT和CoT数据上微调的结果：**在非CoT和CoT数据上联合微调可以提高两个评估的性能，相比于只微调其中一个。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

此外，自一致性结合CoT在几个基准上实现了SoTA结果。CoT + 自一致性还显著提高了涉及数学问题的基准结果（例如MGSM、GSM8K）。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

CoT微调在BIG-Bench任务上通过短语“让我们逐步思考”实现了零样本推理。一般来说，零样本CoT Flan-PaLM优于没有微调的零样本CoT PaLM。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

以下是PaLM和Flan-PaLM在未见任务中进行零样本CoT的一些演示。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

以下是更多的零样本提示示例。它显示了PaLM模型在重复和不回复指令的情况下在零样本设置中的困难，而Flan-PaLM能够表现良好。少量范例可以缓解这些错误。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

以下是Flan-PALM模型在几种不同类型的具有挑战性的开放式问题上展示更多零样本能力的示例：

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

图片来源：Scaling Instruction-Finetuned Language Models

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

广东二级造价工程师《造价管理》真题解析 BUUCTF-RE-[ACTF新生赛2020]usualCrypt 2025/2/23 LeetCode151. 反转字符串中的单词 iOS 2015年3月苹果新的审核标准（中文）网络安全纵向是什么意思网络安全维度 go 字符串中的进制转化

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989