人工智能咨询培训老师叶梓 转载标明出处
大模型在整合实时知识更新方面常常遇到困难,这可能导致回答过时或不准确。尤其当处理多跳问题时,挑战进一步增加,因为这类问题需要模型更新和整合与问题相关的多个知识点。图 1为传统基于相似度的搜索失败案例。
为了解决这一问题,来自美国佐治亚大学、纽约大学、莱斯大学和北卡罗来纳州立大学的研究人员提出了一种名为“检索增强型模型编辑(RAE)”的新框架。RAE框架专为多跳问答设计,通过检索编辑后的事实,然后通过上下文学习来完善语言模型。
RAE框架
RAE框架针对大模型在多跳问答任务中的知识更新提出了一种新的解决方案。该框架通过两个关键步骤来实现对大模型的知识编辑:首先是通过检索与问题相关的编辑事实,然后利用这些事实通过上下文学习的方式对模型进行编辑。
图2为RAE框架的整体流程。首先,通过知识插入/编辑步骤,构建了以“Misery”为中心的子图。然后,利用基于互信息的检索策略,检索到与“Misery”相关的编辑事实。接下来,通过冗余知识剪枝步骤,筛选出最相关的事实。最后,在上下文学习编辑阶段,利用编辑模板和筛选出的事实,对模型进行编辑,以生成准确的答案。
检索编辑后的事实
检索步骤的核心是找到与输入问题直接相关的编辑后事实。这是通过一个基于互信息最大化的检索策略来实现的,该策略优于传统的基于文本相似度的检索方法。在传统的相似度检索中,仅依靠问题和事实之间的文本相似度来选择相关事实,这在多跳问答中可能不够准确,因为多跳问答需要理解问题中蕴含的复杂关系链。
利用外部知识图谱
为了增强检索过程,RAE框架引入了外部知识图谱(如图2所示),如WikiData。这一步骤涉及将编辑过的事实整合到外部知识图谱中,创建一个新的、包含编辑和未编辑事实的增强图G*。这个增强图不仅补充了编辑事实库,而且通过连接不同的实体,提供了额外的事实知识,有助于大模型输出正确的答案。
互信息最大化的检索目标
RAE框架定义了一个优化目标,即在给定问题的情况下,最大化检索子图和问题集之间的互信息。互信息量化了问题和检索子图之间的共享信息量,最大化互信息意味着检索到的子图与问题在信息上高度相关。通过最小化条件熵来实现互信息的最大化,这有助于选择最相关的子图以回答输入问题。
概率估计
为了计算互信息,RAE框架利用了大模型的下一词预测能力。通过考虑知识图谱中的事实链,RAE框架可以迭代地选择最相关的事实。这一过程涉及到对每个候选事实的预测概率进行估计,选择那些能够最大化预测概率的事实,从而构建出最能回答问题的事实链。
冗余事实剪枝
检索到的子图可能包含与问题回答无关的冗余信息。为了减少这种冗余,RAE框架采用了基于编辑不确定性的剪枝方法。编辑不确定性通过计算模型输出的香农熵来量化,反映了模型对其输出答案的信心水平。通过构建不同的事实集候选,并计算每个候选集的输出熵,选择使熵最小的事实集作为最终的编辑事实,从而减少了冗余信息的影响。图3展示了不同事实子集输入时模型编辑不确定性的分布。
RAE框架的理论基础是上下文学习,即当提示文本和输入查询之间存在共享的潜在概念时,可以有效地触发大模型的上下文学习能力。RAE框架通过最大化互信息来选择与问题最相关的事实,从而有效地激活了大模型的上下文学习能力。
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
实验
实验旨在评估RAE框架在多跳问答中编辑大模型输出的有效性,并与其他方法进行比较。实验设计回答了以下几个核心问题:
Q1: RAE在编辑大模型输出上的效果如何?
Q2: 本检索策略与其他检索方法相比表现如何?
Q3: 本剪枝技术是否能够从检索到的事实中移除冗余信息?
Q4: RAE是否适用于专有大模型?
实验评估了多种不同规模和系列的大模型,包括GPT-2 (1.5B)、GPT-J (6B)、Falcon (7B)、Vicuna (7B)和Llama2-chat (7B)。这些模型中,GPT-2、GPT-J和Falcon是没有指令调整的预训练模型,而Vicuna是Llama1的变体,Llama2-chat是Llama2的指令调整版本。
与RAE框架比较的编辑方法包括:
- 模型权重更新方法:通过语言建模编辑过的知识来微调模型权重。
- 辅助模型方法:训练额外的语言模型来存储更新的知识。
- RAG基础方法:如Mello和DeepEdit,采用多轮对话编辑模型输出。
还考虑了一种先进的知识检索方法——子图检索器(SR)。
实验在MQUAKE-CF和MQUAKE-T数据集上进行,这些数据集包含不同跳数的问题编辑实例。实验使用多跳编辑准确率作为评估指标。
表2展示了RAE框架在不同数据集和大模型上编辑性能的评估结果。RAE框架在所有情况下均优于其他方法,显示出其在处理数千个编辑时的优越性能。这主要得益于RAE的新颖的基于互信息的检索目标和有效的剪枝策略。
为了回答Q2,实验评估了基于互信息的检索方法在多跳问答任务中的有效性。
实验包括了三种基于嵌入的方法和一种基于概率的方法:
- 基于嵌入的方法:使用嵌入检索来获取相关语料。
- 基于概率的方法:即子图检索器,它检索最大化条件概率的子图。
实验从MQUAKE-CF数据集中选择了每种2、3和4跳问题的300个案例,并报告了检索精度分数。
结果显示RAE框架在多跳事实提取中表现出色,并且在较小的语言模型如GPT-2上也取得了成功,显示出强大的泛化能力。相比之下,传统的基于嵌入的方法在多跳事实检索挑战中表现不佳。Mello在将多跳问题分解为单跳问题方面表现出一定的有效性,但随着跳数的增加,性能显著下降。
为了回答Q3,实验验证了所提出的剪枝策略对多跳编辑任务的益处。实验结果显示,剪枝技术显著提高了模型编辑的性能。
为了回答Q4,研究者们将RAE框架应用于只能通过API访问的专有大模型,如ChatGPT。实验结果表明,RAE框架在编辑这些专有模型方面非常有效,并且与Mello相比,成本大大降低。
实验还评估了不同编辑批次大小的编辑性能。结果显示,RAE框架的准确性在不同编辑实例中保持稳定,而Mello的准确性随着实例的增加显著下降。
图6展示了M-CF数据集中的两个案例,说明了在知识图谱上的检索过程和检索到的事实的剪枝过程。图中的红线、黑线和虚线分别代表知识图谱中最终的、候选的和丢弃的路径,反映了检索设计中的决策过程。
通过这些实验,研究者们证明了RAE框架在多跳问答中编辑大模型输出的有效性和优越性。
论文链接:https://arxiv.org/pdf/2403.19631