本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
随着大型语言模型(LLMs)在各种任务和专业化领域中的出色表现,基于现有模型的LLM扩展引起了广泛关注,但当将不同模型结合时,性能可能会降低。
为了汇总预训练的LLM,已提出了各种技术,包括模型合并、混合专家和堆叠。
尽管它们具有优点,但尚未对它们进行全面比较和综合应用到多样化的模型动物园中。
鉴于这一研究空白,本文引入了Model-GLUE,这是一个全面的LLM扩展指南。
首先,作者的工作从现有的LLM扩展技术基准开始,特别是选择性合并和混合的变体。
利用基准结果的洞察,作者制定了一个策略,用于选择和汇总具有不同架构和初始化的异构模型动物园。作者的方法涉及可合并模型的聚类和最佳合并策略选择,以及通过模型混合将聚类集成在一起。
最后,通过在多样化的Llama-2模型动物园上进行实验,Model-GLUE展示了平均性能提升5.61%,无需额外训练即可实现。
代码:https://github.com/Model-GLUE/Model-GLUE
1 Introduction
大型语言模型(LLMs)在各种自然语言任务上展示了无与伦比的性能,涵盖了常识推理、问答以及甚至像数学和编程等专业化领域。LLM的有效性基于扩展定律,该定律提出,模型和训练数据规模的增加与模型性能的提升相关[27]。然而,随着LLM继续扩展,计算开销和数据需求也在增加。
随着开源的通用或专业化LLM的普及,将现有模型聚合以构建更通用的LLM成为从头训练更大规模的LLM的经济替代方案。这不仅降低了计算成本,还利用了构建LLM之前工作的集体进步。
在不同的AI LLM组合方法中,一个主要类别是模型融合。模型融合将多个模型通过权重空间转换合并为一个相同大小的单一模型。Wortsman等人[59]首先提出将一些微调的模型作为训练技巧用于平坦损失景观的合并,而Ilharco等人[22]将其扩展到多任务场景,两者都使用了简单的平均。
其他工作提出了更复杂的合并方法,利用权重稀疏[63, 64]和非均匀系数[4, 35]。然而,它们都假设在合并时所有候选模型都是“有用的”。
对于设计的小型模型集合这可能成立,但在现实世界的大规模和多样化模型动物园中可能不成立。如何确保在不同模型动物园大小和相似度下的合并益处,以及如何排除“有害”的候选模型,仍然有待探索。
由于合并受限于相同模型结构和初始权重,另一种选择是Mixture-of-Experts(MoE)[16]。MoE是一种条件计算架构,针对每个特定输入示例只激活模型参数的一个子集[47]。
MoE LLM已经展示了在密集对应物上的性能和计算效率优势。特别是,作者使用一个更广泛的术语“mixture”来表示根据MoE范式将现有专家LLM聚合在一起,这一方法已在一些最近的实践中成功实现。
然而,这些实现忽略了MoE固有的灵活性,以集成不同专家模型,尤其是那些不与合并合作的模型组。此外,合并和混合之间的差异以及可能的协同作用尚未得到充分研究。
基于上述挑战,作者的主要研究问题被表述为:
(Q) 基于当前最先进的模型融合和混合方法,从广泛且多样的模型动物园中选择和汇总大型语言模型(LLM),从而提高模型的整体能力是否可行?为回答这个问题,作者提出了Model-GLUE,这是一个全面的基准和一套针对LLM扩展的指南。Model-GLUE是涵盖广泛模型组大小和变化的第一项LLM扩展工作,重点关注融合和混合方法,同时也讨论了模型堆叠。
作者首先深入研究融合调度,分析可能有害的模型候选项和各种融合技术。然后,作者将各种模型混合作为一种替代融合方法,涵盖不同的混合粒度、路由器架构、路由输入等。在借鉴模型融合和混合的洞察后,Model-GLUE为一系列模型引入了一个高效且强大的LLM扩展配方。它首先进行模型聚类和渐进融合,然后混合所有聚类,从而在整合模型动物园中的相似知识的同时,突出每个聚类的各自优势。
作者的贡献如下:
-
作者对LLM合并策略进行了全面的基准测试分析,首先识别出每个模型的贡献,然后过滤掉有害的候选项。作者的研究结果在从几个到十几种LLM上都进行了验证。
-
作者评估了四种不同的AI模型混合方法:混合 Level 、路由器设计、路由器输入和混合混合。作者已经推导出了一些关于模型混合的原则,并讨论了它作为解决不可合并模型扩展问题的有用性。
-
作者提出了一种基于合并和混合的逐步组合LLM模型方法,即Model-GLUE。该方法首先进行选择性合并,然后进行混合。在通用推理、数学和编程任务上,它超过了最佳单个模型。
广泛的实验结果验证了作者的 Proposal 。例如,Model-GLUE在所有基准测试中相对于最佳单个LLM平均提高了5.61%。
2 Related Works
模型融合。将融合方法分为零样本融合和先融合后训练两种方法。早期的零样本融合方法包括权重平均和线性模式连接[38; 59]。后来流行的方法包括通过操作任务向量进行任务数学[22],以及通过剪枝和冲突解决来解决参数干扰的TIES[63]。DARE[64]选择性地优化参数以增强融合,而无需额外的训练。其他方法关注于权重几何属性用于融合[49; 24]。最近,进化模型融合[4]改进了推理过程中的权重配置和数据 Token 路径。对于先融合后训练的方法,Fisher融合[35]使用费希尔信息矩阵来权重大小模型参数以最大化它们的联合似然。
RegMean[26]将线性融合适应到每个线性层,同时平均嵌入和偏置。然而,零样本和先融合后训练方法对于初始化不同的模型效果较差。利用神经网络在小型到大型模型中的排列对称性来提高融合效率。为了提高融合效率,作者的关注点在于具有相同架构和初始化的模型的零样本融合。
Model Mixture. 混合模型(Mixture-of-Experts,MoE)[47]通过使用路由器网络在不同的输入 Token 激活神经网络的不同部分。与大型语言模型(LLMs)的集成使其在生成能力和效率方面获得了显著的认可。最近,Mixtral[25]证明,MoE方法可以在使用明显较少的活跃参数的同时实现密集LLM的性能。模型混合将一组密集LLM模型(无论其大小如何)组合成MoE模型。
一些研究发现在专家模型的输出融合[54, 55]中,可以利用数据分布的独特洞察力。最近的努力包括Branch-Train-MiX[50],该方法从一个种子密集LLM开始,然后分叉,便于并行训练专家模型。这些训练后的密集模型随后被纳入MoE层中的专家,其他参数平均。
然而,这种方法仅限于具有相同架构和大小共享的密集模型。最近,UltraFuser[13]引入了一种基于 Token Level 的软关注机制,将模型输出混合,采用两阶段训练策略。
堆叠模型。堆叠模型在深度维度将两个模型拼接在一起。在LLM时代,吴等人 [60] 重复使用预训练的LLaMA层,并将输出投影重置为零进行堆叠。金等人 [28] 表明堆叠时丢弃中间层可以获得优越的性能。王等人 [57] 证明堆叠可以助恢复模型参数缩放定律。
雷迪等人 [42] 证明逐渐堆叠可以在少样本学习者的训练过程中显著提高墙钟时间。从理论上,阿加瓦尔等人 [1] 证明堆叠模型可以被视为网络优化中的Nesterov加速。然而,上述堆叠方法涉及不超过两种模型,并且主要关注训练加速的好处。在本工作中,作者探索堆叠两个异构模型以结合其能力的可能性。
近年来,已有几种用于模型混合和合并的工具,以及使用现有LLM进行模型缩放的工具。例如,Mergekit 是一个开源库,旨在促进模型合并策略的应用和MoE[16]的构建。作为统一LLM的示例,Heyonder 是一组用于不同任务的合并和单个LLM的混合物。
然而,各种混合和合并技术缺乏全面的基准,以及在不同相似度 Level 的LLM组之间的统一组的实际指导。
3 Methodology
Preliminaries
在这项研究中,作者考虑了一组已有的大型语言模型(LLMs),表示为{M1, ..., Mn},这些模型已经在大规模的语料库上进行了微调。
作者的目标是提出一种系统性的方法,以在所有知识领域产生一个更强大的聚合模型。具体来说,统一LLM主要通过合并和混合的方式将单个LLM集成在一起。
Model Merging
模型融合(Model Merging)是将多个模型在权重空间中整合为一个统一模型的过程,兼容同一种初始化语言模型(LLMs)[16]。
流行的融合方法可以分为两类:
基于整个模型权重的融合,如Model Soup[59](线性)、SLERP[49]和Model Stock[24];
基于任务向量的工作量加权融合,如Task Arithmetic[22]、TIES[63]和DARE[64]。
前者方法直接插值模型权重,而后者从微调模型中减去预训练模型,得到任务向量,并利用参数的稀疏性和一致性进行精炼融合。
启发式策略用于搜索和过滤合并过程中的潜在有害模型。
它基于贪心搜索,涉及三种变体:
-
启发式-平均保留候选模型,如果合并过程中的 Agent 数据集每轮有改进。
-
启发式-系数构建在启发式-平均的基础上,通过每个回合使用不同的系数将已合并的模型与新候选模型相结合。
-
启发式-相似度选择具有最高或最低相似度的候选模型,并使用系数搜索将其与之前合并的模型相结合。
Model Mixture
_块 Level 混合_通过将具有相同索引的每个LLM的相同索引的Transformer块聚合为专家,并添加块状路由器,创建MoE模块。块 Level 混合适用于具有不同架构但相同嵌入空间、层数和中间维数的模型。_模型 Level 混合_将每个LLM视为专家,并在混合模型输入中使用路由器。模型 Level 混合覆盖与FFN和块 Level 混合不兼容的任何LLM组。特别是,模型 Level 混合类似于但不同于模型集成,因为前者可以稀疏,更注重效率,并利用单个LLM专家知识,而后者通过整体平均或多数投票产生通用结果。
路由器设计。许多MoE研究的路由器网络遵循线性路由器[47]。作者尝试另一种更复杂的MLP路由器,以检查这种路由器设计是否会导致更好的性能。
该路由器由两个连续的FFN和中间的ReLU函数实现,灵感来源于[48, 32]。对于路由方法,作者采用Top-K选择所有路由器,这激活了对应于K个最大softmaxed路由器输出的K专家[47, 48]。
Benchmark Datasets and Configs
Model Zoo。在实验中,作者使用了5组基于Llama-2的7B LLM,模型数量在之间。具体模型候选和性能可在附录B.2中找到。对于合并基准,作者尝试了一个更大的模型动物园,即Which4、Which8和Which12,这些模型是从Which16中筛选出来的。
对于具有更高计算成本的模型混合,作者尝试了Which2和Which4。由于作者试图将用于聊天、写作、数学推理和编码的不同模型训练的模型纳入作者的收藏中,因此作者还尝试了更接近的模型进行比较,提出了Which4(聊天),而默认情况下,Which4是Which4(领域)。
作者评估所有模型在三个任务类别上的表现:
(i) 常识推理,使用 ARC [10],WinoGrande [45] 和 MMLU [20];
(ii) 在 GSM8K [11] 上的数学能力;
(iii) 在 MBPP [6] 和 HumanEval [9] 上的编程能力。
评估脚本基于 lm-eval 2 进行常识和数学推理,以及 bigcode-eval 3 对编程数据集进行评估。
Implementation Details for Merging
Agent 数据集。由于合并模型的性能不一定为正,作者需要一个 Agent 数据集来确定在启发式策略中是否拒绝特定一轮的合并,还是在进化策略中计算模型 fitness。
模型动物园和聚类。合并基准考虑了3个模型动物园:Which4、Which8和Which16。作者首先根据相似度(阈值为0.95)将模型动物园聚类。由于Which16包含无法合并的模型,作者选择聚类得到的可合并家族,称为Which12。
详细说明启发式策略和进化策略。对于启发式策略,为了减少搜索空间,作者只评估线性插值,系数搜索范围为{0.1,0.2...0.9}。在启发式-相似性中,作者将所有权重平均相似度作为每轮选择模型的标准。
对于进化策略,作者参考进化模型合并设置[4],该设置利用Optuna[3]实现的CMA-ES[19]算法。相比之下,所有参数都随机初始化,将拟合值定义为 Agent 数据集的准确性。所有场景下进行了200次尝试。
Model Merging Benchmark Result
作者首先深入探讨现有方法的效用。尽管现有的融合方法主要关注改进融合技术,但它们的效用通常基于小型模型动物园进行验证。例如,Ilharco等人[22]主要关注两个微调模型之间的线性插值,而Akiba等人[4]探索了合并三个模型。
当前,模型实践者通常下载预训练模型,在其自身数据或使用独特技术针对特定下游任务进行微调,然后将它们上传回公共领域。这种做法导致大量开源模型可供使用,然而,现有的合并方法仍然未能充分利用这些模型。
因此,作者不仅讨论合并技术,而是探讨一个独立的问题:
作者能否扩大模型动物园的大小以涵盖更多模型,并设计一个自动合并技术以从合并中受益?现有方法的失败案例。首先,作者提供一个动机示例,展示现有方法的失败案例。
作者考虑三个模型,Llama-2-Chat [52],Vicuna [67] 和 CodeLlama [43],它们都初始化为相同的基模型,Llama-2 [52]。
作者将Vicuna和CodeLlama与Llama-2-Chat合并,分别报告Appendix C.2中的表13中的评估结果。作者在 mergekit 中评估了六种实现的代表性合并技术,包括线性插值 [59],SLERP [49],Model Stock [24],Task Arithmetic [22],DARE [62],和TIES [63]。
将Llama-2-chat与Vicuna合并,合并模型相比任何单一模型的性能更好,而将Llama-2-chat与CodeLlama合并则无法超过所有单一模型,甚至可能导致性能显著下降,这也得到了徐等人 [62] 的提及。
结果表明,当合并无法合并的新模型(如CodeLlama)时,可能会导致性能急剧下降。即使它来自相同的预训练预训练权重。
这种失败案例激励作者设计一个自动选择合并模型的策略,并排除无法合并的模型。
以下段落中,作者探讨了针对大规模模型合并的几个解决方案。这些变体解决了不同的资源和速度需求。这些方法的应用主要围绕回答以下关键问题展开:
Q1:手工编写的规则适用于自动化模型选择,哪个模型表现最好?A:是的,通过贪心搜索方法。在本节中,作者探索了三种潜在的模型选择启发式方法,并在图4(a)中报告了结果。
作者包括了在合并前实现最佳平均性能的最佳单一模型(模型参与者)。
作者还验证了基于启发式合并技术的性能,这在第3.2节中有详细说明。如结果所示,基于启发式系数的合并技术在模型动物园较大时始终具有优越的性能。
对于Which4,启发式平均实现了更好的性能,而启发式系数表现不佳。这主要是因为Which4中的特定领域模型表现出相似的性能,且不可或缺。
Q2: 如何利用进化策略进行模型合并中的系数优化?
作者将问题划分为以下子问题:
(_i_)哪种合并方法与进化策略最兼容?
(_ii_)细粒度优化是否会导致更好的合并模型?
(_iii_)如何有效地在大型模型动物园中进行合并?
对于(i),A:较简单的方法如线性方法和任务算术更具有竞争力。作者比较了四种方法:线性方法、任务算术方法、DARE和TIES。如图4(b)所示,线性合并始终获得良好结果。然而,当待优化的参数较小,任务算术方法在线性方法上表现略好。由于待优化参数加倍,DARE和TIES在其他方法上的性能略低。
对于(iii),A:使用启发式策略大致搜索系数,然后使用进化策略微调系数。如表17所示,两种策略的结合在较少的尝试下取得了更好的结果。关于实现细节,请参阅附录B.5。
Implementation Details for Mixture
Model Zoo和路由器初始化。在Mixture Bench中,作者实验了Which2和Which4模型设置。对于路由器设计,作者主要采用了一个从 Prompt 向量初始化的训练免费线性层路由器,因为之前的研究已经证明了其在零样本MoE模型[16]中的有效性。
对于具体的 Prompt 设置,作者参考Beyonder模型系列4。对于路由算法,作者使用Which2的Top-1路由,Which4的_Block level mixture_和_Model-level mixture_,以及Which4的_FFN level mixture_。
经过微调的 MLP 路由器。对于随机初始化的 MLP 路由器,作者通过在 GPT4All 数据集 [5] 上进行语言建模来微调模型,只更新路由器。附录 7 中包含了详细的超参数。
混合方法缩写为了简化描述,作者在表1中使用了缩写来表示不同的混合方法。
Model Mixture Benchmark Result
在本节中,作者试图回答五个关于混合变体的主要研究问题:混合 Level 、路由器设计、路由器输入和混合合并。作者还探索了无法作为作者下一个模型-GLUE菜谱中合并和混合用于LLM缩放的超不同模型的混合。
Q1:在哪个 Level 上,模型的混合体现其最大效果?A:模型 Level 的混合始终更好。作者对使用线性路由器和样本路由策略如表2所示的{FFN,块,模型} Level 混合进行比较分析,结果显示在Which2和Which4设置下,_模型 Level 混合_优于其他混合设置。这可能归因于_模型 Level 混合_的设计,它将每个样本路由到一个专家模型,从而避免了不同专家模型之间的冲突,并最大化最合适的专家的专业知识。
由于专家不是从相同的预训练过程中获得的,直接合并他们的不兼容表示空间会影响混合模型的性能,更多的专家参数会导致更差的结果。这在_块 Level 混合_中尤为明显,因为路由在每个 Transformer 层上执行,表示被 ConCat 输入到不同的专家块中,在切换不同专家知识时造成混乱。
Q3: 模型混合是否会直接作用于不可合并的模型?A: 不会。作者直接将Which2的_模型级混合_设置应用于Llama-2-7b-chat和CrystalChat,这是一对具有不同架构和初始化的不可合并模型。如表4所示,性能稍逊于最佳单模型。这可能是因为简单的 Prompt 和直接混合,无法协调不同模型之间的剧烈差异。作者评估了针对同一模型对和混合模型的更复杂 Prompt ,混合模型优于单模型,更多信息请见表19。
Q4:哪种路由输入更好, Token 级还是样本级?A:并非完全不同。Token 输入适合混合相同领域的模型。表5显示了 Token 基础和样本基础路由的性能相当接近。特别是对于Which2和Which4(聊天),这些模型都是针对通用聊天目的进行训练的, Token 路由优于样本路由;而对于默认Which4(域),样本路由则表现更好,因为域有不同的专业化模型。这可能是由于模型知识和表示空间出现偏差,导致在细粒度 Token 路由中出现冲突。
Q5: 混合混合物是否可以提供改进?A: 是的。
作者的实验表明,在没有混合混合物的F-L-T上的实验,如表6中所述,混合混合物在平均性能上显著提高了性能,并同时降低了推理过程中的内存开销。这种改进可能归因于初始 Transformer 模块更高的敏感性。避免使用MoE这些模块可以获得性能提升,正如一些先前的研究也建议的那样[12, 41]。令人惊讶的是,作者的结果表明,混合F-L-T模型在math和code任务上始终优于标准F-L-T。
作者的进一步分析表明,这种改进可能是因为GSM8K,MBPP和HumanEval数据集中的内容具有对话性质,这似乎挑战了初始 Transformer 模块内的路由机制,导致专家专门化无效。
5 Superior Recipes to Aggregate LLM Knowledge
Model Merging v.s. Mixture
对于可合并的模型动物园,作者应该如何选择合并和混合?当计算资源有限或模型相对均匀时,合并几乎是始终是一种简单而有效的方法。对于特定领域的模型,混合可以带来更大的改进。
详细结果如表7所示。对于Which4(域),由于适当设计的线性路由器,模型混合可以完全利用各种域特定模型,从而稍微优于融合。对于Which4(聊天),作者采用Which4(域)的最佳设置,只改变模型动物园。由于单个模型在一个域中没有表现出优越的能力,因此设计成本低廉的路由器具有挑战性。因此,混合在成本上表现得比融合显著 worse。此外,尽管将Which4(聊天)中的同质模型结合在一起可以带来一些改进,但作者可以看到Which4(域)整体上。
Model-GLUE: selective merging then model mixture for better LLM scaling
Q2: 在一个广泛且多样的模型动物园中,如何结合差异较大的模型?
在Which16中,一个更大且更多样化的模型动物园,由于结构差异,某些模型无法合并;另外,与其他模型合并会导致性能下降的模型。因此,作者首先根据余弦相似度将模型聚类。在每个可合并的家族内部,作者执行合并或混合。作者最初采用启发式合并策略并报告表8中的最佳结果(即,完全合并)。Llama-2家族(即Which12)包括多达12个模型,直接通过混合实现效率低下。
因此,作者只考虑由合并选择的模型并报告F-L-T混合的结果。从表8中,作者可以观察到完全合并优于F-L-T混合。因此,作者将完全合并选为Llama-2家族的代表模型,并将其与其他无法通过混合合并的模型相结合。平均而言,Model-GLUE相对于最佳单模型提高了5.61%。更多细节见附录B.7。
6 Discussion with Other LLM Aggregation Techniques
迄今为止,作者主要关注两种LLM聚合技术:模型合并和混合。在本节中,作者将讨论可能有助于模型协作的其他潜在技术。
模型堆叠(Model Stacking)。研究发现,将模型的参数堆叠在自身之上可以加速训练收敛速度,而不是从头训练一个双倍大小的模型。这一概念可以自然地扩展到堆叠多个模型作为一个较大的模型。作者的实验结果显示,使用轻量级微调的模型堆叠相对于各种合并和混合模型可以获得优越性能。例如,堆叠Llama 7B和Vicuna 7B在MMLU基准测试上可以达到55%以上。
与模型混合相比,模型堆叠在模型选择方面提供的灵活性较小。尽管堆叠后的架构比MoE更标准化,但增加模型深度也会导致比混合模型更高的延迟,其中子网络并行推理。此外,模型堆叠并没有简化设计空间,例如在堆叠两个异构模型时,确定是否、哪些和多少层应该被删除。
模型通信。 模型通信是一种框架,它通过使用多个可凸集的 Agent 来协作完成任务,从而实现 LLM 应用的开发。这种方法允许开发行人将复杂的 LLM 应用工作流程设计为多 Agent 对话,其中具有不同角色和能力的 Agent 由 LLM、工具或人类输入驱动相互交互。
与模型融合、混合和堆叠技术不同,LLM 通信与本文的主要关注点垂直,因为它不修改模型权重;相反,它利用 LLM 的在语境学习和工作对话能力来协调 Agent 。与这种方法类的实证比较超出了本研究的范围,将在未来的研究中探讨。
7 Conclusion
在这篇论文中,作者探讨了基于现实世界中的预训练LLM模型的扩展LLM。首先,作者以最先进的LLM合并、混合和模型堆叠为基准。
基于先前的发现,作者然后提出了一种新颖的LLM扩展框架,即Model-GLUE。
具体而言,作者扩展了模型动物园,并仔细检查了现有的模型合并技术,并得出了基于启发式和可学习算法的选择性合并技术。
进一步,作者研究了Mixture-of-Experts的LLM组合的变体,并建议它可以作为合并失败情况的一种替代方案。
最后,作者将选择性合并策略与模型混合技术相结合,提出这是一种综合的解决方案,可用于扩展各种LLM集合。未来的工作将包括模型堆叠和与作者Model-GLUE框架的通信。
参考文献
Model - GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild.
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。