您的位置:首页 > 汽车 > 新车 > 知识图谱存在的挑战---数据相关和算法相关

知识图谱存在的挑战---数据相关和算法相关

2024/7/3 18:27:27 来源:https://blog.csdn.net/weixin_43961909/article/details/139653928  浏览:    关键词:知识图谱存在的挑战---数据相关和算法相关

文章目录

    • 数据相关
    • 算法相关

数据相关

    数据是知识图谱的基石,知识图谱的数据来源主要有两种:自有数据(自身采集 或拥有等)和外源数据。自有数据由建设者因特定的业务需求而采集获取或经过特定加工处理形成且被自己所拥有的数据;外源数据是通过互联网爬取、开放共享或和数据交易所获得的数据。实际应用中,数据来源多样性造成数据标准不统一、数据质量差,导致多源数据歧义、噪声大、数据间关联关系不明确等问题。数据歧义和关系不明确对知识图谱构建和推理形成了巨大的阻碍,对知识图谱应用成效的提升和技术的进步提出了巨大的挑战。

    多源数据依托于不同的业务目需求和工具产生,行业跨度大且缺乏统一的业务数据模型标准和描述规范,异构、歧义、噪声大特征显著,尤其是通过互联网获取的网络知识。对于知识图谱而言,数据歧义体现为实体、概念的属性描述缺乏精确性、一致性或者实体间关系错置、扭曲,导致图谱结构混乱及语义描述相互冲突、推理机制紊乱、推理结果扭曲失真,最终对图谱应用成效产生巨大副作用。噪声大是互联网数据一大显著特征,海量的噪声数据稀释了数据信息内容和价值密度。数据充斥大量的噪声,将会在图谱中产生大量孤立、无用的实体和属性关系,这些实体和关系还会占据大量的存储空间和关系路径,使图谱实体层变得冗余、繁杂,不仅不能加快图谱推理速率、提升推理精度,反而导致存储资源的浪费和图谱推理应用的低效。

    关联是知识图谱的核心和本质所在,知识图谱依赖于关系连接的方式将一个个实体、概念进行关联形成关系网以实现知识的表示、推理,完成知识服务引擎。数据间的关联性是否明确、完备是决定图谱实体间关系是否清晰、完整的关键。然而,在实际应用当中,多源异构数据之间的关联性并非严格明确的。其一,数据间的关联性指向类型不明确,具体表现为关联性作用为相关关系还是因果关系,有方向性还是无方向性。其二,即使明确关联性存在,但现有关联性的作用有多强,是单独体现还是联合其他关系共同体现也很难明确。

算法相关

    知识图谱技术是对语义网标准与技术的一次扬弃与升华,但知识图谱中的知识抽取、知识融合及知识计算等技术依然面临着许多困难与挑战,亟待学术界与工业界协力去解决。在未来几年时间内,知识图谱仍将是人工智能前沿研究问题。

    知识图谱系统从获取、建模、融合、计算等,每个环节均涉及不同的算法,目前各步骤所用到的算法根据现状和需求不同存在不同挑战。知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重要的意义。现有的知识元素(实体、关系)抽取技术与方法往往是在限定领域、主题的数据集上进行,虽然取得了较好的效果,但由于制约条件较多方法的可扩展能力不够强,未能很好地适应大规模、领域独立、高效的开放式信息抽取要求。而且,基于大规模开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。

    知识融合对于知识图谱的构建、表示均具有重要的意义。指代消解和实体对齐均是知识融合中的关键步骤,虽然相关研究已取得了较为丰硕的成果,但仍有广阔的发展空间。对指代消解而言,虽然英文指代消解的研究取得了很大的成就,研究方法从基于规则的方法到基于统计的方法,但由于汉语和英文在构词、语法和句型等许多方面都存在较大的差异,因此,汉语指代消解的问题不能完全照搬英文中相关的消解技术,必须针对汉语自身的特点利用汉语有关的知识资源进行指代消解。

    对实体对齐而言,首先,经过命名实体识别流程获取的实体名通常是有歧义的,也就是说一个实体名通常会指代知识库中的多个实体,比如:网球运动员李娜与《青藏高原》的演唱者李娜并不属于同一个实体。如何将实体名链接到知识库中的正确实体是实体链接需要解决的问题。其次,对通用领域知识库进行的实体链接还会带来额外的挑战,例如实体量巨大对候选实体增加了大量噪音,而且也需要对实体进行相关领域判断。

    在对短文本输入进行的实体链接也会带来额外的挑战。在大多数情况下,输入文本只是输入一个句子,甚至是一个词组。与针对长文本或者文档的实体识别与链接方法不同,短文本输入的上下文信息非常缺乏并且几乎没有共现实体的信息。但是现实生活中,大部分的文本信息都是以短文本的方式存在,这需要着重发掘词语与实体的关系,从而从极少的文本中提取到语义信息。

    从实体识别到关系抽取、共指消解、实体对齐整个流程的误差会从第一个环节开始层层传播,使得实体对齐最终获得的实体质量急剧衰减。除此之外,各环节的预测任务相互独立且鲜有互动,无法处理全局的依赖关系。而且,目前尚无受到广泛认可的实体链接评测框架,不同实体链接研究在问题定义、基本假设、评测数据集等多个维度均存在较大差异,难以进行有效的比较。

    现有的知识推理模型往往需要大量高质量的样本进行训练学习,这需要耗费很大的代价去获取样本。然而,人往往凭借相关先验知识只需少量样本就能快速学习推理。在此过程中,大脑感知外部环境,对感兴趣或待学习的信息保持关注,并通过与已有先验知识的结合快速建立起新的知识,而后经过神经元的加工整理,形成难以被遗忘的长时记忆。目前已有一些用神经网络模拟人脑的学习和推理的研究,但复杂度较高且需要大量训练样本的支撑。另一方面,现有的知识推理实现方式,可以解决大部分领域和业务场景的复杂计算需求,但对于计算资源和存储资源的占用较大,且现有算法效率存在瓶颈,应用到大规模数据集时往往需要较长时间,无法满足许多领域实时、准实时或及时的计算决策要求。

    目前的算法仍然是基于(实体1、关系、实体2)三元组形式的语义解析,算法严重依赖现有的数据集。当客户有新需求、数据变更和扩充时需要修改数据结构及业务逻辑,因此算法的扩展性差、对客户响应慢、维护成本高已成为算法所面临的一系列问题。同时,随着时间和空间的发展,知识图谱的数据规模不断的增大,数据会动态进行增加、修改和删除,算法若对数据的动态变化不能进行很好的复用和拓展,修改数据结构和算法逻辑会对整个知识图谱的构建过程造成不可估量的影响。

    算法的鲁棒性是指在异常和危险的情况下算法生存的关键,指在被测数据受到干扰时算法得出的结果是否相对稳定。知识图谱是需要建立在海量数据之上的一种应用,在构建知识图谱的关系时数据来自不同的数据源,常见的数据源包括:公开信息、业务数据、三方数据、用户授权数据等。在构建过程中,从不同来源的数据中抽取的知识可能存在大量噪声和冗余,甚至算法输入的数据可能恶意生成样本和训练数据污染,面对噪声数据的干扰、多源异构数据的复杂性及AI安全所带来的恶意增加的干扰数据,现有算法模型的鲁棒性还有待进一步提高。

    现阶段,随着知识图谱构建和应用需求的不断增加,针对知识图谱的各算法技术也在不断的更新和发展,针对知识图谱的歧义性、动态性和非规范性等问题,机器学习、深度学习、自然语言处理等领域都提出了针对性的算法技术。现阶段,在学术研究中上,众多文献中对同一任务不同算法的评测指标都是针对开源数据集的研究,但在实际算法需求中数据的来源、格式、任务需求等存在差异。目前大规模知识图谱的应用场景都是针对特定的任务需求,如何选择恰当的算法并对不同的算法进行统一的评定,进而实现图谱的智能化应用仍然是一个研究重点。因此,对不同的算法进行统一的评测是现阶段存在的挑战之一。

    可解释性是指判别过程是否可以转化成具备逻辑关系的规则。目前对深度学习领域中的一个显著的问题:随着模型复杂性的增加,模型可解释性按照同样的速度降低。此外,对算法可解释性的要求,各行业、各情况下也有不同。在不同的领域下,对算法可解释性的要求不同;在样本集数量不同时,对可解释性的要求也不同。而且,对于算法可解释性的标准,目前各领域也缺乏一致意见。所以,对算法可解释性的要求、定义和标准细则都有待进一步研究和明确。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com