【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】
P1,P2
说明:目前这只是部分附录(P2中提到的),后面我每完成一P,就会把该P对应的附录部分加进来。
附录
A SELF-RAG 细节
A.1 反思标记(reflection tokens)
反思标记的定义
下面我们提供了反思标记类型和输出标记的详细定义。前三个方面将在每个片段(segment) 级别提供,而最后一个方面仅在每个输出级别提供。
- 按需检索(Retrieve):给定一个输入和前一步生成(如果适用),语言模型(LM)判断后续生成是否需要事实基础。No 表示不需要检索,因为序列不需要事实基础,或者无法通过知识检索来增强,Yes 表示需要检索。我们还增加了 continue to use evidence,表明模型可以继续使用之前检索到的证据。例如,一个段落(passage) 可能包含丰富的事实信息,SELF-RAG 会基于该段落生成多个片段。
- 相关性(IsRel):检索到的知识可能并不总是与输入相关。此标记指示证据是否提供了有用的信息(Relevant)或无关信息(Irrelevant)。
- 支持性(IsSup):归因的概念是指输出是否完全得到了特定证据的支持(Menick et al., 2022; Bohnet et al., 2022)。此标记判断输出中的信息在多大程度上得到了证据的支持。我们将归因评估分为三种等级:完全支持、部分支持 和 无支持/相反,参考 Yue et al. (2023); Nakano et al. (2021)。
- 有用性(IsUse):按照 Liu et al. (2023a) 的定义,我们将感知效用定义为回答是否对查询有帮助且信息丰富,独立于其是否事实正确。此标记也可以被视为可行性(Menick et al., 2022)。对于有用性,我们使用五分制评估(1 为最低,5 为最高)。
基于 GPT-4 的数据收集细节
我们使用第 D 节中列出的指令和示范对 GPT-4 进行提示。根据官方建议,我们用 “###” 分离指令和输出。我们将温度设置为 1(知识蒸馏的温度),将最大输出 token 设置为 200。我们丢弃了不符合预期类别名称或输出格式的实例。最终,我们收集了 1,2594 个 Retrieve 实例,11,181 个 IsSup 实例,19,317 个相关性实例,以及 3,831 个效用实例。
对 GPT-4 预测的手动分析
本文作者随机抽样每个方面的 20 个实例,并检查 GPT-4 的预测是否与他们对相同指令、示范和测试实例的评估一致。我们发现评估结果与 GPT-4 预测高度一致,尤其是在相关性(95%)、检索必要性(95%)和支持度(90%)方面。由于 1-2 分与 4-5 分的差异,有用性方面的同意率略低(80%)。
A.2 SELF-RAG 训练
训练概述
算法 2 提供了我们训练的高级概述。
种子数据集的完整列表
为了获取多样化的输入-输出对
- 我们从 Open-Instruct 数据集(Wang et al., 2023)中采样实例。特别是,我们使用了其中的 ShareGPT、GPT-4 Alpaca、Alpaca、OpenAssistant 和 FLAN 子集。
- 我们还从多个知识密集型数据集(包括 Natural Questions(Kwiatkowski et al., 2019)、Wizard of Wikipedia(Dinan et al., 2019)和来自 KILT 基准(Petroni et al., 2021)的 FEVER(Thorne et al., 2018))中采样实例,以及 ASQA(Stelmakh et al., 2022)和多个问答数据集,包括 ARC-Easy 和 OpenBookQA(Mihaylov et al., 2018)。
表 3 显示了训练实例的完整列表,总共使用了 145,619 个实例。
批判模型 C C C 的表现
- 我们通过将 GPT-4 生成的反馈划分为训练集、开发集和测试集,来评估奖励预测的准确性。
- 奖励模型(即批判模型 C C C )的准确性如表 5 所示。正如您所见,我们微调后的奖励模型整体上与 GPT-4 预测的反馈高度匹配。
- 虽然我们的最终模型使用 Llama2-7B 作为基础语言模型,我们也在相同数据上训练并比较了 FLAN-3B(Wei et al., 2022)模型,以研究不同模型参数大小对最终奖励预测效果的影响。在大多数方面,我们的奖励模型的准确率超过了 80%,表明微调的专门语言模型在文本评估方面具有强大的能力。
- 虽然两个模型在 ISUSE 上的表现相对较低,这是因为两个模型通常在最高的两个评分(5 和 4)之间存在混淆,甚至人类标注者也可能对其有不同意见。
生成器模型 M M M 数据创建的细节
这里,我们提供了详细的数据创建过程。算法 3 概括了该过程。
- 为了简化,我们将 y t y_t yt 设为 y y y。一旦我们训练好了批判模型,我们首先在前述数据集的输入数据上运行它,以预测是否需要检索。
- 对于批判模型预测为 Retrieve = No 的实例,我们仅根据输入和输出预测 ISUSE。
- 对于批判模型预测为 Retrieve = Yes 的实例,
- 我们首先使用输入和整个输出作为查询,检索相关段落,以找到与整个输出相关的段落。
- 然后我们使用 Spacy 工具将输出句子拆分。
- 对于每个句子,我们运行批判模型 C C C 来预测在给定输入、前序片段和最初检索到的段落的情况下,是否需要检索。
- 如果 C C C 预测 Retrieve = No,则在第 t t t 个片段处不插入任何段落。
- 如果 C C C 预测 Retrieve = Yes,则我们使用原始输入和第 t t t 个片段作为检索查询,以找到与第 t t t 个片段相关的段落。
- 对于每个检索到的段落,我们预测 ISREL 和 ISSUP。
- 如果有任何段落和延续满足 ISREL = Relevant 且 ISSUP = Fully Supported 或 ISSUP = Partially Supported 的条件,则我们将其作为延续进行采样。
- 如果有多个段落满足该标准,我们选择检索分数最高的段落。
- 如果只有 ISREL = Irrelevant 或 ISSUP = No Support 的段落,我们会随机采样一个段落。
训练示例
表 4 展示了用于 M M M 模型训练的几个训练示例。
算法2的解读
算法 2 主要描述了 SELF-RAG 的训练过程,分为两个阶段:批判模型 C C C 的训练和生成器模型 M M M 的训练。以下是对算法 2 关键步骤的解释:
1. 初始化输入数据和模型
- 步骤 1:输入数据 D = { X , Y } D = \{X, Y\} D={X,Y},包含输入 X X X 和输出 Y Y Y 的配对,同时引入生成器模型 M M M、批判模型 C C C 和优化器 θ \theta θ。
- 步骤 2:使用预训练语言模型来初始化批判模型 C C C。这意味着批判模型在微调之前,已经拥有一定的语言理解和生成能力。
2. 训练批判模型 C C C
- 步骤 3:从数据集中采样一组输入-输出配对 { X sample , Y sample } \{X_{\text{sample}}, Y_{\text{sample}}\} {Xsample,Ysample},这保证训练的数据多样性。
- 步骤 4-6:对于每对输入 ( x , y ) (x, y) (x,y),提示 GPT-4 生成相应的反思标记 r r r(例如,是否需要检索、段落是否相关等),然后将生成的 ( x , y , r ) (x, y, r) (x,y,r) 添加到批判模型的数据集中 D critic D_{\text{critic}} Dcritic。
- 步骤 7:根据收集到的数据,使用下一个标记预测损失来更新批判模型 C C C,通过最大化生成的反思标记的对数似然来优化模型。
3. 训练生成器模型 M M M
- 步骤 8:使用预训练语言模型来初始化生成器模型 M M M。
- 步骤 9-11:对于输入数据中的每一对 ( x , y ) (x, y) (x,y),运行批判模型 C C C 来预测反思标记 r r r,并将生成的 ( x , y , r ) (x, y, r) (x,y,r) 添加到生成器模型的数据集中 D gen D_{\text{gen}} Dgen。此过程为生成器模型提供了丰富的监督数据。
- 步骤 12:使用生成器模型 M M M 上的下一个标记预测损失来进行优化。通过最大化生成器模型生成的文本和反思标记的对数似然来更新模型。
表3
生成器 M M M 的训练数据统计。
图5
使用 GPT-4 的预测作为真实值的批判模型(奖励模型)的预测准确率。
算法3
生成器训练数据的创建过程
A.3 SELF-RAG 推理
束搜索评分计算的细节
我们首先通过计算期望标记的归一化概率,来为每种批判类型计算评分。
- 对于 IsRel,评分的计算公式如下:
s ( IsRel ) = p ( IsRel = Relevant ) p ( IsRel = Relevant ) + p ( IsRel = Irrelevant ) s(\text{IsRel}) = \frac{p(\text{IsRel} = \text{Relevant})}{p(\text{IsRel} = \text{Relevant}) + p(\text{IsRel} = \text{Irrelevant})} s(IsRel)=p(IsRel=Relevant)+p(IsRel=Irrelevant)p(IsRel=Relevant) - 对于 IsSup,评分的计算公式如下:
s ( IsSup ) = p ( IsSup = Fully ) + 0.5 × p ( IsSup = Partially ) S s(\text{IsSup}) = \frac{p(\text{IsSup} = \text{Fully}) + 0.5 \times p(\text{IsSup} = \text{Partially})}{S} s(IsSup)=Sp(IsSup=Fully)+0.5×p(IsSup=Partially)
其中, S = ∑ t ∈ { Fully, Partially, No } p ( IsSup = t ) S = \sum_{t \in \{\text{Fully, Partially, No}\}} p(\text{IsSup} = t) S=∑t∈{Fully, Partially, No}p(IsSup=t)。 - 对于 IsUse,我们有一个五级评分系统。我们将权重分配给 IsUse 标记的五个可能值,权重 w = { − 1 , − 0.5 , 0 , 0.5 , 1 } w = \{-1, -0.5, 0, 0.5, 1\} w={−1,−0.5,0,0.5,1},评分的计算公式如下:
s ( IsUse ) = ∑ i w i p ( IsUse = i ) S s(\text{IsUse}) = \sum_i w_i \frac{p(\text{IsUse} = i)}{S} s(IsUse)=i∑wiSp(IsUse=i)
其中, S = ∑ t ∈ { 1 , 2 , 3 , 4 , 5 } p ( IsUse = t ) S = \sum_{t \in \{1, 2, 3, 4, 5\}} p(\text{IsUse} = t) S=∑t∈{1,2,3,4,5}p(IsUse=t)。
自适应检索的细节
对于基于软约束的检索,当满足以下条件时触发检索:
p ( Retrieve = Yes ) p ( Retrieve = Yes ) + p ( Retrieve = No ) > δ \frac{p(\text{Retrieve} = \text{Yes})}{p(\text{Retrieve} = \text{Yes}) + p(\text{Retrieve} = \text{No})} > \delta p(Retrieve=Yes)+p(Retrieve=No)p(Retrieve=Yes)>δ
D 全部指令和示范列表(用于 GPT-4)
在这里,我们展示了用于提示 GPT-4 收集反思标记的指令和示范。
- 表 8 展示了用于初始检索标记的指令和示范。
- 表 9 展示了用于根据给定的指令、前置句子和之前检索到的段落,收集三类输出标记的指令和示范。由于示范和测试输入较长,我们只使用了一个示范。
- 表 10 展示了用于收集 IsRel 三类输出标记的指令和示范。
- 表 11 展示了用于收集 IsRel 三类输出标记的指令和示范。
- 表 12 展示了用于收集 IsUse 五类输出标记的指令和示范。
表4
此表展示了多个训练示例,下面只翻译第一个示例:
输入:识别两种类型的计算机内存。(来自 gpt4 alpaca)
输出:
- 检索:是
- 段落:计算机内存——在计算机中,内存指的是计算机硬件中的集成电路,它用于存储计算机即时使用的信息;它与“主存储器”一词同义。计算机内存以高速运作,例如随机存取存储器(RAM),区别于提供较慢访问但容量较大的存储设备。如果需要,计算机内存中的内容可以转移到二级存储;一种常见的方法是通过称为“虚拟内存”的内存管理技术。内存的古老同义词是“储存”。“内存”这个术语指的是“主存储器”或“主内存”。
- 相关性:[ISREL = 相关]
- 生成:主内存,也被称为主存储器,是计算机可以直接访问和操控的内存。
- 支持性:[ISSUP = 完全支持]
- 检索:是
- 段落:计算机内存——通常与可寻址的半导体内存相关,即由基于硅晶体管的集成电路组成,用作主存储器,还用于计算机和其他数字电子设备中的其他用途。半导体内存主要有两种类型:易失性和非易失性。非易失性内存的例子包括闪存(用作二级存储器)和 ROM、PROM、EPROM、EEPROM(用于存储固件,如 BIOS)。易失性内存的例子包括主存储器,通常是动态随机存取存储器(DRAM),以及快速的 CPU 缓存内存,通常是静态随机存取存储器(SRAM),它速度快但耗能高,提供较低的存储容量。
- 相关性:[ISREL = 相关]
- 生成:主内存可以快速访问,但它是易失性的,这意味着如果断电,数据将丢失。
- 支持性:[ISSUP = 部分支持]
- 效用:[ISUSE = 5]
表8
仅根据输入,用于“检索”方面的指令和示范。
指令
给定一个指令,请判断从网络(例如,维基百科)查找一些外部文档是否有助于生成更好的回应。请回答 [Yes] 或 [No],并写下解释。
示范
- 指令:给出保持健康的三条建议。
是否需要检索? [Yes]
解释:可能有一些在线资源列出保持健康的三条建议,或一些可靠的资源解释不同行为对健康的影响。因此,检索文档有助于改进对此查询的回应。 - 指令:描述你曾经做过的一个艰难决定。
是否需要检索? [No]
解释:这个指令询问的是一些个人经验,因此不需要检索外部文档。 - 指令:写一个关于主角必须做出重要职业决定的第三人称短篇小说。
是否需要检索? [No]
解释:这个指令要求我们写一个短篇小说,且不需要外部证据进行验证。 - 指令:法国的首都是哪里?
是否需要检索? [Yes]
解释:虽然该指令只是让我们回答法国的首都(一个广为人知的事实),但检索网页文档对此问题仍然有帮助。 - 指令:给定圆的半径,求该圆的面积。半径 = 4
是否需要检索? [No]
解释:这是一个数学问题,虽然我们可能找到一些描述公式的文档,但很难找到准确提到该答案的文档。 - 指令:将给定句子中的单词排列成语法正确的句子。句子为:“quickly the brown fox jumped”
是否需要检索? [No]
解释:此任务不需要任何外部证据,因为这是一个简单的语法问题。 - 指令:解释植物细胞呼吸的过程。
是否需要检索? [Yes]
解释:这个指令要求详细描述一个科学概念,并且很可能我们可以找到可靠且有用的文档来支持该回应。
表9
根据输入、前置生成和检索段落,展示了用于“检索”方面的指令和示范。
指令
你将获得一个指令、证据(之前检索到的段落提供的)、输出句子以及前置句子(可选)。如果给出了前置句子,输出句子应当是紧接这些前置句子之后的句子。你的任务是判断输出句子中的信息是否可以通过证据完全验证,还是需要进一步的外部验证。
这里有三种情况:
- 如果输出句子可以仅通过证据进行验证,则回答 [Continue to Use Evidence]。
- 如果句子不需要任何事实性验证(例如,主观句子或关于常识的句子),则回答 [No Retrieval]。
- 如果需要额外的信息来验证输出句子,则回答 [Retrieval]。
请为你的判断提供解释。
示范
指令:解释词嵌入在自然语言处理中的应用。
前置句子:词嵌入是自然语言处理(NLP)中最强大的工具之一。它们是单词或短语在向量空间中的数学表示,允许衡量单词之间的相似性以及它们所在上下文的相似性。
证据:词嵌入
词嵌入是自然语言处理(NLP)中一种语言建模和特征学习技术的统称,其中词汇中的单词或短语被映射到实数向量。概念上,它涉及从每个单词一个维度的空间嵌入到具有较低维度的连续向量空间。输出:词嵌入对于情感分析、文本分类、预测序列中的下一个单词以及理解同义词和类比非常有用。
评级:[Retrieval]
解释:输出讨论了词嵌入的应用,而证据仅讨论了词嵌入的定义及其工作原理。因此,我们需要检索其他证据来验证输出是否正确。
表10
仅根据输入,展示了用于 IsRel 方面的指令和示范。
指令
你将获得一个指令、证据以及可能一些前置句子。如果有前置句子,你的重点应该放在它们之后的句子上。你的任务是判断证据是否与最初的指令及前置上下文相关,并提供有用的信息来完成指令中描述的任务。如果证据满足这一要求,则回答 [Relevant],否则生成 [Irrelevant]。
示范
- 指令:给出四个选项 A、B、C 和 D,选择最佳答案。
输入:地球自转的原因
A:昼夜的交替
B:火山爆发的形成
C:潮汐的周期变化
D:重力的形成
证据:自转导致昼夜交替,同时也产生了相应的温度和湿度循环,海平面随着地球自转一天两次升降。
评级:[Relevant]
解释:证据明确提到自转导致了昼夜交替,正如选项 A 中所描述的。 - 指令:参选美国众议院的年龄要求
证据:宪法规定了参选美国参议院的三个资格:年龄(至少 30 岁);美国公民身份(至少 9 年);以及在选举时参议员所代表的州的居住资格。
评级:[Irrelevant]
解释:证据仅讨论了参选美国参议院的年龄要求,而不是众议院的。
表11
展示了用于 IsSup 标记的指令和示范。
指令
你将收到一个指令、证据、输出句子以及可选的前置句子。如果提供了前置句子,输出句子应当是紧接这些前置句子之后的句子。你的任务是评估输出句子是否得到了提供的证据的充分支持。
使用以下蕴含尺度生成评分:
- [Fully supported]:输出中的所有信息都得到了证据的支持,或者从证据中提取的信息支持了输出。这只适用于输出和部分证据几乎相同的情况。
- [Partially supported]:输出在某种程度上得到了证据的支持,但输出中存在一些主要信息未在证据中讨论。例如,如果指令涉及两个概念而证据只讨论其中一个,则应视为 [Partially supported]。
- [No support / Contradictory]:输出完全忽略了证据,与证据无关或与证据相矛盾。如果证据与指令无关,也可能发生这种情况。
确保不使用任何外部信息或知识来判断输出是否正确或不正确。只需检查输出是否得到了证据的支持,不要检查输出是否符合指令。
示范
指令:解释词嵌入在自然语言处理中的应用。
前置句子:词嵌入是自然语言处理(NLP)中最强大的工具之一。它们是单词或短语在向量空间中的数学表示,允许衡量单词之间的相似性以及它们所在上下文的相似性。
输出:词嵌入对于情感分析、文本分类、预测序列中的下一个单词以及理解同义词和类比非常有用。
证据:词嵌入
词嵌入是自然语言处理(NLP)中一种语言建模和特征学习技术的统称,其中词汇中的单词或短语被映射到实数向量。概念上,它涉及从每个单词一个维度的空间嵌入到具有较低维度的连续向量空间。生成此映射的方法包括神经网络、对单词共现矩阵的降维、概率模型、可解释的知识库方法以及根据单词出现的上下文进行的显式表示。词嵌入和短语嵌入在用作底层输入表示时,已被证明能够在 NLP 任务(如句法分析、情感分析、下一个单词预测以及类比检测)中提升性能。
评分: [Fully supported]
解释:输出句子讨论了词嵌入的应用,而证据提到了句法分析、情感分析、下一个单词预测以及类比检测作为应用。因此,评分应为 [Fully supported]。
表12
展示了用于 IsUse 标记的指令和示范。
指令
给定一个指令和输出,评估该回应是否对查询有帮助且信息丰富,并对其打分,评分范围为 1(最低)至 5(最高)。我们称此评分为感知效用。评分标准如下:
- 5:回应提供了一个完整、非常详细且信息丰富的回答,完全满足了信息需求。
- 4:回应基本满足了查询中的需求,虽然可以进行一些小的改进,例如讨论更多的详细信息、改善回应的结构或提高连贯性。
- 3:回应是可以接受的,但需要一些主要的补充或改进才能满足用户的需求。
- 2:回应仍然涉及主要请求,但不够完整或与查询不完全相关。
- 1:回应几乎没有涉及主题或完全无关。
示范
- 指令:截至 2023 年,现任英国首相是谁?
输出:鲍里斯·约翰逊是 2019 年至 2022 年的英国首相。
感知效用:2
解释:虽然输出提供了一个关于 2019 年至 2022 年英国首相的事实正确的陈述,但这个指令询问的是截至 2023 年的首相是谁,因此没有回答该指令。因此,效用评分为 2。 - 指令:给出一个旅行目的地的描述,推荐 10 个旅游景点,并详细描述每个景点。旅行目的地是日本东京。
输出:东京是一个充满刺激旅游景点的繁华城市。一些必看的景点包括东京晴空塔、东京迪士尼乐园、浅草寺、明治神宫、筑地市场、原宿和新宿御苑。
感知效用:3
解释:该输出并没有提供每个景点的详细描述,且景点数量也少于 10 个。虽然该输出部分回答了指令,但并未严格符合指令要求。
未完待续。。。