概述
论文地址:https://arxiv.org/pdf/2404.08066
源码地址:https://github.com/msadat3/mscinli
自然语言推理(NLI)是一项识别两个句子之间语义关系的任务。第一个句子称为 “前提”,第二个句子称为 “假设”。传统的自然语言推理数据集包括 SNLI、MNLI、SICK 和 ANLI,它们将假设分为三类:暗示、与前提相矛盾或与前提中立。这些数据集不仅被用作自然语言理解(NLU)的基准,还被用于事实检查和假新闻检测等下游任务。它们还促进了表征学习、迁移学习和多任务学习的进步。
然而,由于这些数据集中的样本主要来自普通领域,它们并不能充分反映科学领域的语言特性。因此,我们引入了科学自然语言推理任务和第一个数据集 SciNLI:它包含从与计算语言学相关的科学论文中提取的句子对,为了执行科学论文的特定推理,传统自然语言推理的三个类别被四个类别所取代(蕴涵/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含/蕴含)。虽然 SciNLI 在研究界引起了极大的关注,但它仅限于单一领域(单一领域;ACL),并不是一种常见的自然语言推理工具。它缺乏科学领域自然语言推理基准的多样性。
因此,本文提出了一个科学自然语言推理数据集 MSciNLI,其中包含从五个不同领域发表的论文中提取的句对。这五个领域分别是 “硬件”、“网络”、“软件与工程”、"安全与隐私 "和 “NeurIPS”。我们利用科学论文中连接句子的短语建立了一个大型训练集,并在训练过程中直接使用可能存在噪声的句子对。测试和开发集包括人工标注的句子对,以生成高质量的评估数据。
基于 BILSTM 的模型用于评估 MSciNLI 的难度。此外,还对 BERT、SCIBERT、ROBERTA 和 XLNET 等四个预先训练的语言模型进行了微调,并对 LLAMA-2 和 MISTRAL 这两个大规模语言模型进行了零拍和四拍提示,以建立 MSciNLI 的基线。线。此外,还评估了测试时领域转移的性能,并对科学自然语言推理模型的泛化性能进行了全面分析。
建立 MSciNLI,一个多样化的科学自然语言推理基准
本节将介绍MsciNLI的数据来源、构建方法和统计数据。MsciNLI 的数据来自 ACM 数字图书馆的四个类别(“硬件”、“网络”、"软件及其工程 "和 “安全与隐私”),从收集自 NeurIPS 上发表的论文和文章。下表提供了从这五个领域中提取的句对样本。
它还引入了一种基于 Sadat 和 Caragea 于 2022 年提出的 "远距离监督 "的数据提取和自动标注程序。句子到句子的链接短语(如 “因此”、“相应地”、"相比之下 "等)被用来自动标注具有自然语言推理关系的大型(潜在噪声)训练集。下表列出了链接短语及其与自然语言推理关系的映射。
该程序首先从五个领域的论文中提取相邻的句子对,对于 “暗示/启发”、"推理/推理 "和 "矛盾/反驳 "类别,第二个句子的开头必须是连接短语。对于每一对提取出来的句子,我们都会根据第二句开头的链接短语来分配类别。例如,如果第二句以 "因此 "或 "由于 "开头,就会被贴上推理/推理的标签。标签分配完成后,链接短语将从第二句中移除,以防止模型仅仅学习链接短语和标签之间的表面关联并预测标签。
对于 "中性/中立 "类,句子配对是通过三种方法从同一篇论文中提取一对句子中的两个句子来构建的:一种方法是将两个不以关联短语开头的随机句子配对。另一种方法是随机抽取一个不以链接短语开头的句子作为第一句,然后将其与属于其他三个类别之一的随机句对中的第二句配对。最后一种方法是随机选择一个不以链接短语开头的句子作为第二句,并将其与属于其他三个类别之一的随机句对中的第一句配对。
从所有四个类别中提取出句子对后,以每篇论文为单位将其随机分成训练集、测试集和开发集。此时,从特定论文中提取的句子对被包含在一个集合中。自动注释的样本直接用于训练模型。但是,由于在构建训练集时使用了远距离监督,如果连接短语没有准确捕捉到句对之间的关系,就可能出现标记噪声。因此,为了确保评估的真实性,测试集和开发集中的句子对都由人工标注员标注为四种科学自然语言推理关系之一。
三位注释者对MSciNLI 测试和开发集进行了注释。注释员从测试和开发集中随机抽取出一个类平衡的句对子集,指示他们根据每个样本中两个句子的上下文注释标签(句子之间的关系)。如果注释者无法根据句对中的两个句子确定标签,则会被指示标记为不精确。根据注释者的多数投票结果,每个样本都会被赋予一个金色标签。如果注释者之间无法达成一致(约 3%),则不分配金标签。金标签与根据链接短语自动分配的标签相匹配的样本将被纳入相应的分区,而其他样本则被排除在外。
对于每个领域,继续进行随机抽样(无替换)和人工标注,直到测试集包含至少 800 个干净样本(每类 200 个),开发集包含 200 个干净样本(每类 50 个)。总共注释了 6992 个样本,其中 6153 个样本与金标签和自动分配的标签相匹配。这意味着,总体而言,MSciNLI 的匹配率为 88.0%。
为确保数据的均匀性,每个领域中每个类别的样本数量都被缩减为:测试集 200 个,开发集 50 个。因此,测试集包含4000 个样本,开发集包含1000 个样本。在训练集中,也使用了类似的程序来确保数据平等
接下来是 MSciNLI 的统计数据。下表显示了 MsciNLI 与 SciNLI 统计数据的比较,表明MsciNLI的样本总数(<预设,假设> 对)大于 SciNLI,后者是唯一一个对科学论文进行自然语言推理的数据集。此外,MSciNLI 的每个域都包含大量的训练集样本。
与 SciNLI 一样,我们使用斯坦福 PCFG 分析器(3.5.2)来分析数据集中的句子。如上表所示,MSciNLI 中约 94% 的句子都有 "S "词根,这表明数据集中的大多数句子在句法上都是完整的。该表还显示,MSciNLI 中每对句子的前提词和假设词之间的重叠率也很低,与 SciNLI 相似。由此可见,与 SciNLI 一样,MSciNLI 数据集也不容易被表面词汇线索所利用。
评估 MSciNLI
MSciNLI 评估包括三个阶段:第一阶段使用 BiLSTM 模型评估难度;第二阶段使用四个预训练语言模型和两个大规模语言模型建立基线,并将它们的性能与人类进行比较;第三阶段比较基线与人类在训练集上的性能。第三,比较基线与人类在训练集上的表现。
使用第一个 BiLSTM 模型进行难度评估的结果如下表所示,该模型在 MSciNLI 和 SciNLI 中的表现比较如下:MSciNLI 是比 SCINLI 更具挑战性的数据集;BiLSTM 模型在 SciNLI中的宏观 F1得分为 61.12%,而在MSciNLI 中仅为 54.40%。在 SciNLI 中的宏观 F1 得分为 61.12%,而在 MSciNLI 中仅为 54.40%。这些结果表明,MSciNLI 比 SciNLI 对模型提出了更大的挑战,使科学自然语言推理任务变得更加困难。
其次是利用预训练语言模型和大规模语言模型建立基线。在此,使用集成的 MsciNLI 训练集对四种预训练语言模型的基础变体进行了微调:作为四种预训练语言模型,使用了BERT(Devlin 等,2019)、SciBERT(Beltagy 等,2019)、RoBERTa(Liu 等,2019b)和 XLNet(Yang 等,2019)、RoBERTa(Liu 等人,2019b)和 XLNet(Yang 等人,2019)。每个实验使用不同的随机种子运行三次,并按领域和总体计算出 Macro F1 分数的平均值和标准偏差。结果如下表所示。
SciBERT在所有领域的表现都优于 BERT;SciBERT采用与 BERT 相同的程序进行训练,但使用科学论文进行预训练,这可能有助于提高科学自然语言推理的表现。此外,RoBERTa和XLNet是针对 BERT 的弱点而设计的,两者在所有领域的表现都明显优于 BERT。特别是,RoBERTa的表现一直优于XLNet,也优于SciBERT。
然后将两个大规模语言模型作为基线进行评估。这里使用的是 LLAMA-2(Touvron 等人,2023 年)和 MISTRAL(Jiang 等人,2023 年)。具体来说,我们使用了拥有 13 亿个参数的 Llama-2-13b-chat-hf 和拥有 7 亿个参数的 Mistral-7B-Instruct-v0.1 模型。
本文为科学自然语言推理任务提供了三个选择题模板(见下文)。
- 任务-1:给定一对句子,让大规模语言模型预测四个类别名称的类别。
- 任务-2:为大规模语言模型提供科学自然语言推理任务的进一步背景,定义科学自然语言推理的类别,然后使用类别名称作为选择来预测类别。
- 提示-3:使用类别定义作为直接替代。
本文还评估了大规模语言模型在两种情况下的性能:零拍和四拍。下表列出了每个实验的特定领域和整体 Macro F1 分数。请注意,每个提示的零拍和四拍结果分别以 PROMPT - zs 和 PROMPT - ifs 表示。
结果显示,LLAMA-2 在PROMPT-3fs中的性能最高,Macro F1 达到 51.77%。这比 PROMPT-1fs 中最高的 MISTRAL 性能高出 6.28%。
此外,还评估了三位专家(具有相关领域背景;E)和三位非专家(无领域背景;NE)在 MSsciNLI 上的人类性能。通过重新标注一小部分随机抽样的测试集子集来估算人工性能。计算了专家和非专家 Macro F1s 的平均值和标准偏差。它与最佳预训练语言模型基线 RoBERTa 和使用最佳大规模语言模型基线PROMPT-3fs的 LLAMA-2 进行了比较。
结果表明,专家标注者的表现明显优于非专家标注者。结果还显示,非专家的性能虽然低于专家,但仍高于基线。专家的性能也明显高于 RoBERTa 和 LLAMA-2。这表明该模型的性能还有很大的提升空间。
通过这些评估,我们可以清楚地看到MSciNLI是科学自然语言推理任务的重要数据集,其难度和多样性如何影响模型的性能。
分析 MSciNLI
我们从多个角度对 MSciNLI 训练集进行了分析,以研究其性能。首先是数据制图(Swayamdipta 等人,2020 年)。通过使用数据制图选择的不同训练子集对模型进行微调,从而对 MSciNLI 训练集进行评估。接下来,我们研究了模型在测试过程中的领域转换行为。最后,我们进行了跨数据集实验,比较了使用 SciNLI、MSciNLI 和两者结合进行微调的模型的性能。在这些实验中,我们使用了最佳基准模型 RoBERTa。
在 MSciNLI 训练集中,通过置信度和变异性两个指标对每个样本进行数据制图。在此基础上,使用以下训练集的子集对三种不同的 RoBERTa 模型进行微调。
- 33% - 简单易学 - 高置信度样本
- 33% - 难以学习 - 低置信度样本
- 33% - 模棱两可 - 样本变化很大
此外,为了分析难以学习的样本对模型学习的影响,还从整个训练集中排除了以下两个子集,对模型进行了微调
- 100% - 最高 25% 难度(25% 置信度最低的样本)
- 100% - 最高 5%难度(最低置信度 5%样本)
下表显示了这些结果,其中在33% 含混样本(33% - 含混)上微调的模型在其他 33% 的子集中表现最佳。由此可见,训练样本的 "模糊性 "对于训练强科学自然语言推理模型非常有用。
33% 含混样本(33% - 含混)的表现也很好,但整个学习集(100%)的表现更好。此外,去除一些难以学习的样本(25% 或 5%)也不会导致整体性能出现统计学上的显著差异。换句话说,训练集中的所有样本对于学习最优模型都很重要。
除了 MSciNLI 的五个域外,我们还在实验中加入了 SciNLI 的 ACL 域。为了进行公平比较,我们将 SciNLI 的训练集缩小到与其他域相同的大小,并标记为 ACL - SMALL。域内 (ID) 和域外 (OOD) 结果如下表所示。
在领域(ID)内训练的模型比在领域外(OOD)训练的模型性能更高。例如,在 NeurIPS 训练集上微调的模型在NeurIPS上测试时的宏观 F1 为 76.02%,而在其他领域训练的模型在 NeurIPS 上测试时表现较差。这表明,每个领域的句子对都具有独特的语言属性,而在该领域数据上训练的模型能更好地捕捉这些属性。
最后一项实验是跨数据集实验。在每个测试集上训练和评估了以下四个不同的 RoBERTa 模型。
- 科学实验室
- MSciNLI。
- MSciNLI+(S) - MSciNLI 和 ACL-SMALL 的组合
- MSciNLI+ - MSciNLI 和 SciNLI 的组合
这些结果如下表所示。在数据集转移的情况下,SciNLI 和 MSciNLI 的性能有所下降。然而,在 MSciNLI 中经过微调的模型在非数据集环境下保持了相对较高的性能:在 SciNLI 中经过微调的模型在 MSciNLI 中测试时性能下降了 2.02%,而在 MSciNLI 中经过微调的模型在 SciNLI 中测试时性能只下降了 1.34%。微调后的模型在 SciNLI 中测试时仅下降了 1.34%。这表明,数据多样性有助于训练出具有高泛化性能的模型。
使用 MSciNLI+对模型进行微调后,在两个数据集和两个数据集的组合中也显示出最佳性能。通过在具有不同样本的大型训练集上对模型进行微调,可以获得更好的性能:在 MSciNLI+(S)上训练的模型性能低于在 MSciNLI+ 上训练的模型,但仍优于 MSciNLI。这表明数据集的组合也适用于 MsciNLI+(S)。
总结
本文介绍了 MsciNLI,这是一个来自五个科学学科的多样化科学自然语言推理基准。我们构建并验证了该数据集对于预学习语言模型 (PLM) 和大规模语言模型 (LLM) 都具有挑战性。此外,我们还全面考察了科学自然语言推理模型在测试时领域转移情况下的性能及其在下游自然语言处理任务中的应用。
实验结果表明,大型语言模型在 MSciNLI 上的性能较差(最高的 Macro F1 分数为 51.77%),这表明未来还有很大的改进空间。此外,提示语的设计对性能也有很大影响,进一步探索其他提示策略可能会提高性能。
作者指出,今后的工作将重点关注提示设计,以提高大规模语言模型在科学自然语言推理中的性能。