天大-张小旺教授
关系抽取
知识图谱构建核心任务之一
- 定义:给定文本及文本中涉及的两个实体,判定实体之间是否存在关系以及存在何种关系
- 应用:在智能问答、推荐系统、信息检索、阅读理解等技术中广泛使用
小样本关系抽取技术现状
- 小样本关系抽取任务的目标:通过利用极少量的标注数据训练(或微调)模型,使得模型可以快速学习到一个关系类别的特征,同样只有极少数样本的类别进行准确分类
- 现有方法主要分为三种:
- 基于图注意力的方法
- 基于元学习的方法
- 基于原型网络的方法
- 共性难点:
- 可供学习的样本量少,容易出现过拟合问题
- 不同关系类别实例间差异信息难以学习
基于注意力的方法
- 研究问题:由于样本稀缺、质量有限导致的特征稀疏问题
- 基于注意力的代表性方法:利用层次注意力机制可以在不同的层次上提供不同粒度的信息选择和噪声处理能力
- 底层的注意力能够捕捉更特定化的关系特征,具有和传统注意力机制类似的细粒度实例选择能力
- 顶层的注意力只能提供粗粒度的实例选择能力,但是其可以捕捉几种子关系间的共同特征和关联信息,增强处理长尾关系的能力
基于元学习的方法
- 元学习(Meta-Learning),又称“学会学习”,即利用以往的知识经验来指导新任务的学习,使网络具备学习的能力
- 技术原理:增加学习器在多任务的泛化能力,且对于任务和数据需要双重采样,因此,可以在未见过的任务里迅速建立分类映射
- 基于语义提示范式:构造从关系描述到句子实例的匹配网络模型
- 针对匹配网络模型学习:三元组-释义的预训练方法,以增强模型对关系描述和实例间语义匹配的泛化性
基于原型网络的方法
- 原型网络(prototypical network)是一种简单高效的分类模型:假定每个类都存在一个原型,该原型由类支持集中所有实例嵌入向量的平均值来表示,根据类原型和查询集实例向量之间的距离比较实现查询实例的分类
- 如左下图示,查询样本x在欧氏距离上分别与C1、C2、C3三个类原型比较,最终确定与C2类原型更为接近,因此x被认为属于C2类别
研究现状
不平衡文本关系抽取
-
问题:在不平衡文本分类中,少数类的困难样本(例如电信诈骗)通常很难被分类,因为它们嵌入到与多数类重叠的语义区域
-
挑战:
- 给定一个困难样本和一个多数类样本配对,如何捕捉它们的纠缠语义
- 如何从锚实例中解耦和注入语义
- 把锚实例合并到原始数据中可能会改变数据分布,从而对非困难样本分类产生负面影响,该如何避免
-
方法:
提出了一个互信息约束的语义过采样方法MISO:- 语义融合模块(SFM)
- 互信息损失(MI Loss)
- 基于encoder-decoder网络的耦合对抗生成器(CAG)
基于自适应Gumbel攻击的模型去偏差方法,旨在利用自适应攻击策略提升分类器对模型偏差的敏感度,进而实现对模型偏差的免疫。
- 问题:当前的PLMs基于神经上下文编码器,倾向于把某些命名实体上下文中的情感信息应用到表示学习过程中,使得命名实体与情感之间容易形成虚假的相关性
- 挑战:
- 向量表示的脆弱性
- 攻击噪声的单一性
- 噪声和模型偏差之间的异质性
- 贡献:
- 提出了基于Gumbel攻击的专家网络,生成模拟模型偏差的Gumbel噪声
- 提出了基于置信度的自适应训练框架,根据Gumbel攻击对置信度决定是否加入新的专家网络
- 提出了多路参数优化算法,将专家网络的参数作为噪声的另一种呈现形式,以更新分类器参数
-
问题:不平衡数据集中困难样本的百分比以及困难样本对最强基线(XLNet)分类性能的影响。
分类错误主要来自于困难样本的误分类。
-
实验结果:
-
结论:
- 提出了数据层面的去偏差方法,在不引入外部资源的情况下,有效地提升了命名实体的少数类样本的多样性,缓解了数据去偏差引起的模型过拟合问题
- 提出了模型层面的去偏差方法,利用自适应攻击策略有效地提升了分类器对模型偏差的敏感度,缓解了模型偏差的偏差-方差 权衡问题
小样本逆关系分类
- 文本中逆关系的表达通常具有相似的语义和不同的语法结构,故该文提出了虚词自适应增强的注意力网络以学习其句法结构。
- 提出了虚词增强注意力网络以捕获类相关的虚词
- 提出了自适应信息传递机制以传递相同类之间的相似信息和不同类间差异信息
- 理论证明了引入虚词和提出的自适应信息传递机制的有效性
- 结论:通过增强关系相关的虚词能够有效解决小样本逆关系分类,在FewRel1.0数据集的1-shot设置下,准确率提升了14.33%,远超SOTA
文档级关系抽取
- 文档级关系抽取(DocRE)是给定文档和文档中实体,提取文档中实体对之间的关系。
- 输入:文档文本、实体和Gold Annotations(训练时)
- 输出:实体对的关系类型
- 贡献:
- Backbone:关系通用的文档级关系抽取框架,得到三元组嵌入表示
- Beta Rule Miner:引入Beta分布对Gold Annotations表示,得到高质量的规则
- Joint Traning:通过规则的充分性和必要性双向建模,进一步约束三元组嵌入表示,对基本骨架分类损失和规则约束损失进行联合训练,优化参数
- 不同规则挖掘器在不同时间间隔内挖掘的规则量的比较
- 灰色:表示由一般规则挖掘器生成的规则
- 红色:表示由Beta规则挖掘器生成的高标准置信度规则
- 蓝色:表示高头部覆盖规则
- 结论:本文提出的Beta规则挖掘器所挖掘的规则质量远高于一般规则挖掘器;观察Beta(SC)和Beta(HC)之间的比例。表明满足反向约束的规则不能被忽略
跨语言关系抽取
目前在工业上多采用直接翻译的方法
- Zero-Shot Cross-Lingual Transfer:零样本跨语言迁移是指目标语言没有可用的标记示例的设置。在一种(单源)或多种(多源)源语言上训练神经关系提取和事件论证角色标记模型,再把模型部署到目标语言中。
- 引入了一种图注意力变化编码器(GATE),它利用自注意力来学习结构化上下文表示,允许所有单词之间存在注意力,但使用成对的句法距离来衡量注意力
- GATE具有捕获远程依赖关系的能力,这对于具有较长句子的语言(例如阿拉伯语)至关重要
- GATE与语言词序无关,因为它使用句法距离来建模成对关系言语之间。这一特性使得GATE适合跨类型不同的语言进行传输,例如英语到阿拉伯语
-
跨语言关系抽取中,不同语言之间固有的语言差异可能会使零样本迁移预测的答案跨度违反目标语言的句法约束。
-
答案跨度和句法成分间关系
-
在四个多语言MRC数据集上,答案中涉及句法组成边界的百分比
-
-
创新&贡献:
- 提出了一个多语言MRC框架,该框架显示地把源语言的语义知识转移到目标语言中,以减少源语法对目标语言MRC中的回答跨度检测的负面影响
- 提出了一种对偶的语义解纠缠模型(S2DM),该模型利用语义/语法损失的多语言PLMs的语义和语法信息
- 在三个多语言MRC数据集(XQuAD、MLQA和TyDi QA)上的实验结果表明,本文提出的模型在两个强基线上的EM值分别显著提高3.13和2.53个点
-
整体实验结果
-
消融实验结果
-
结论:本文提出的多语言MRC模型进行零样本跨语言转移,通过从语法表示中解耦语义信息并把其从丰富资源语言迁移到低资源语言中,减少语言之间的语法差异的影响
软件安全隐患关系
无监督的软件安全隐患实体关系抽取
-
任务:抽取软件隐患文本中的关键信息(缺陷类型、根本原因、攻击者类型、影响和攻击方式)
-
创新:缺陷文本由人类书写,句式多变难以准确学习其特征,但缺陷关键因素具有相似的句法位置关系,因此本文使用句法关系对关键因素进行表征学习,这种学习方法可以在多变的缺陷文本句式中学习到关键因素之间的相对位置关系
-
关键技术:基于POS句法关系进行CaVAE表征学习,并用DBSCAN进行无监督标注
-
结论:本文提出的方法特征表示可以对关键因素进行较好的区分,最终的无监督标注有较好的表现
大模型关系“知识偏差”
-
过时的知识:训练数据作为模型的知识来源是受到时间限制的,目前尚未出现能随现实时间同步更新的大模型
-
有毒的知识:部分训练数据包含片面、错误、甚至是自相矛盾的知识。
eg:大力神杯是世界杯的奖杯
-
存在偏见的知识
eg:统计ChatGPT的多次生成结果,“刻意”把男孩与狗、女孩与猫联系在一起,男孩与猫、女孩与狗的故事生成结果少之又少
-
模型知识增强解决知识偏差
-
数据微调
通过更多数据微调及终身学习进行模型知识增强
-
提示增强
通过上下文增强及提示学习进行模型知识增强
-
- 模型知识编辑
已有模型知识增强的局限性
→难以精准编辑、无法高效更新、缺乏长期记忆
→缺乏对大模型知识机理的本质理解
→模型知识编辑
模型知识编辑:在训练好的模型(LLM)上把某类输入对应的模型输出更改为指定输出,而不影响其他输入并且不需要重新训练全部参数的问题
LLM更新成本高,模型知识编辑旨在使LLM像人类每天读书看报一样不断高效学习、维护知识的正确性
- 模型知识编辑评估指标
- 可靠性:给定编辑描述下的编辑成功率
- 泛化性:给定编辑范围内的成功率
- 局部性:模型在数据集编辑前后是否发生改变
- 编辑效率:编辑过程所需时间和显存/内存消耗
- 问题:基于预训练的机器阅读理解模型中的实体名字偏差
- 贡献:基于结构因果模型分析了预先训练的知识、语境表征和答案之间的因果关系,提出基于组合神经元感知和词元感知的调整模块来约束名字偏差
基于预训练表示的MRC模型可能会过度使用名字信息进行预测,导致名字的表示不可互换 - 结构因果模型:
- X:篇章和问题
- K:预训练知识
- M:预训练模型提取的特征
- Y:答案
对X进行干预
→阻止预训练中有关名字的知识影响X的表示
→缓解名字偏差
长文档事件抽取
- 把时间敏感问题视为目标缺失的时间事件用于匹配给定文档中的时间事件,提出了基于事件的溯因推理框架(Event-AL)来解决复杂时间事件
- 引入了基于关系的提示来指导大语言模型提取候选时间事件
- 利用图剪枝模型捕捉事件之间的时间关系以定位隐式时间事件的时间跨度
- 设计溯因推理模块在获得正确目标的同时提供对应的解释
- 结论:本文提出事件提取和图剪枝能有效地识别出复杂时间事件,而溯因推理模块能在确定正确答案的同时提供相应的解释。实验表明Event-AL在时间敏感问答上的表现明显优于强基线,特别是复杂模式的EM分数提高了12.7%。此外,Event-AL在多答案和超难时间敏感问题也表现出巨大的优越性
总结和展望
- 小样本关系抽取是知识图谱构建核心任务之一,尤其在垂直领域有着广泛应用价值
- 小样本关系抽取技术取得了长足进步,仍存在一些技术瓶颈有待改进
- 小样本关系在大模型也是存在新问题,比如关系知识偏差,探测、编辑以及评价