摘要
近年来,在多模态知识图谱补全(MMKGC)方面取得了重大进展。MMKGC通过集成多模态实体信息来增强知识图补全能力,从而促进大规模知识图中未观察三元组的发现。然而,现有方法强调设计优雅的KGC模型以促进模态交互,而忽略了KGC中模态缺失的现实问题,模态信息的缺失阻碍了模态交互,从而影响了模型的性能。在本文中,我们提出了一个模态对抗和对比框架(MACO)来解决MMKGC中的模态缺失问题。MACO对偶训练一个生成器和鉴别器来生成缺失的模态特征,这些特征可以合并到MMKGC模型中。同时,我们设计了一个跨模态对比损耗来提高发电机的性能。在公共基准上的实验和进一步的探索表明,MACO可以获得最先进的结果,并作为一个通用的框架来支持各种MMKGC模型。我们的代码和基准数据可在https://github.com/zjukg/MACO上获得。
1.引言
知识图谱补全(Knowledge graph completion, KGC)[1]是一个热门的研究课题,其重点是在知识图谱中发现未被观察到的知识[17],知识图谱由大量实体和关系以三元(头实体、关系、尾实体)的形式组成。像图像这样的多模态信息作为实体的补充信息,也有利于KGC模型,这在研究界被称为多模态KGC (MMKGC)[19,12,16]。
通常,MMKGC是通过基于嵌入的方法完成的,该方法将KGs中的实体和关系嵌入到低维嵌入空间中,并设计评分函数来建模三重结构,从而学习所谓的结构嵌入。此外,在特征提取后,需要将图像等多模态信息与结构嵌入进行融合和交互,以提高KGC的性能。这突出了结构-视觉模态交互和融合对于实现更好的MMKGC性能的重要性。
图1所示。KG缺失模态影响1例。在没有视觉信息的帮助下,由于KG的上下文信息,红色芸苔的颜色可能会被预测为红色或绿色。有意义的视觉信息可以指导KGC模型准确预测尾实体。
然而,实际KGs的构建通常涉及多个异构数据源,这使得保证所有实体的完整模态信息具有挑战性,从而导致MMKGC中的模态缺失问题。这个问题会损害模态交互,导致KGC性能变差。虽然现有的MMKGC方法[19,12,16]结合了各种方法来对齐结构和视觉信息,但它们往往忽略了模态缺失问题。这些方法通常采用随机初始化等简单的解决方案来完成缺失的视觉信息,这可能会给MMKGC模型引入噪声并丢失一些关键信息。图1说明了有意义的视觉信息如何提高KGC模型的性能,这也反映了完整实体视觉信息的重要性。
为了解决缺少情态的问题,我们为缺少情态的MMKGC提出了一个情态对抗和对比(简称MACO)框架。利用生成对抗框架[7],我们集成了一对生成器和鉴别器,以实体结构信息为条件生成缺失的视觉特征。此外,我们设计了一个跨模态对比损失[10],以提高生成特征的质量,提高训练的稳定性[22]。生成的视觉特征将用于MMKGC模型。为了证明MACO的有效性,我们在公共基准上进行了全面的实验,并进行了进一步的探索。实验结果证明,与基线方法相比,MACO可以获得最先进的(SOTA) KGC结果,并可作为不同MMKGC模型的通用增强框架。
我们的工作贡献可以总结如下:
- 我们是第一个致力于解决MMKGC任务中模态缺失问题的工作。
- 我们提出了一种新的MACO框架来生成逼真的视觉特征,并设计了跨模态对比损失来提高生成的特征的质量。
- 我们通过公共基准的综合实验验证了MACO的有效性,并进行了进一步的探索,证明了MACO在模态缺失的MMKGC中可以达到SOTA的结果。
2.相关工作
2.1多模态知识图谱补全
知识图补全(Knowledge graph completion, KGC)旨在发现知识图中未观察到的三元组,知识图嵌入(Knowledge graph embedding, KGE)[17]是知识图补全的主流方法。一般的KGE方法[1,21,15,13]将KGE的实体和关系嵌入到低维向量空间中,并对具有不同分数函数的三重结构进行建模。
对于多模态知识图补全(MMKGC),在嵌入模型中需要考虑模态信息(图像、文本描述)。IKRL[19]将视觉特征投影到相同的结构信息向量空间中,并在分数函数中考虑视觉特征。TBKGC[12]进一步考虑了视觉信息和文本信息,对模态融合进行了探索。TransAE[18]采用自动编码器对模态信息进行更好的编码。RSME[16]设计了几个门来选择真正有用的模态信息。最近的OTKGE[2]和MoSE[23]等方法在多模态融合方面取得了进一步的进展。
2.2 Incomplete Multi-modal Learning
不完全多模态学习(IML)由于在实践中常见的模态缺失情况而引起了学术界的广泛关注[6,8]。IML的主流解决方案分为两类:生成方法和联合学习方法。生成方法旨在通过GAN[7]和VAE[9]等生成框架来学习数据分布并生成缺失的模态信息。然而,联合学习方法试图学习缺失模态下的鲁棒联合嵌入。
在KG社区,模式缺失问题长期被忽视。一些多模态实体对齐(MMEA)方法[3,4]试图解决模态缺失问题。对于KGC任务,现有的方法通常会忽略这样的问题,或者只是用随机初始化等简单的方法来完成缺失的信息。我们认为,补全KGC过程中缺失的实体模态信息,丰富KGC,提高KGC的性能是非常重要的
图2所示。MACO的模型体系结构。MACO有三个关键设计:特征编码器、对抗训练和跨模态对比损失。结构编码器(S-ENC)和视觉编码器(V-ENC)用于捕获结构/视觉特征。对抗性训练将采用一个生成器和一个判别器,并应用对抗性训练。设计跨模态对比损失是为了提高生成特征的质量。
5.结论
本文主要讨论了现有MMKGC方法中的模态缺失问题。我们认为,像随机初始化这样的普通方法会在MMKGC模型中引入噪声,从而导致糟糕的性能。我们提出了一种模态对抗和对比框架MACO,它生成以结构信息为条件的实体的视觉模态特征,以保持结构和视觉信息之间的对应关系。这种方法用语义丰富的视觉表示完成了缺少模态的实体。我们在公共基准上进行实验,以证明MACO的有效性。在未来,我们计划对缺失模态补全和知识图谱补全进行协同设计。