摘要
随着互联网和人工智能的发展,知识图谱和知识工程越来越受到了广泛的关注和应用。知识图谱是一种结构化的知识表示方式,这些结构化的数据蕴含着重要的信息。知识图谱的可解释性强,它以图的形式呈现实体、关系和属性之间的关系,这种结构化的表示方式使得知识图谱更加易于理解和解释。 本文以知识图谱为核心展开,从一般的知识图谱场景入手,选择两个具体的知识图谱ConceptNet和Wikipedia分别在常识推理和文本匹配上进行应用。文本匹配任务和常识推理任务之间存在着密切的关联和相互促进的关系。在语义层面,常识知识图谱可增强检索系统对用户需求和文档内容的理解和匹配能力,利用常识知识图谱进行语义搜索,可支持按意图而非关键词进行搜索,以扩大文本匹配的准确度。同时,在逻辑层面,文本匹配任务可以通过对自然语言的理解和推断,比较两个句子之间的相似性或差异性来推断它们之间的逻辑关系,进而推断出一些隐藏的常识信息,从而提高常识推理的准确性和性能。因此,本文选择将知识图谱在常识推理和文本匹配上进行应用研究,主要完成的工作内容及贡献归纳如下: 在传统的常识知识图谱补全方法中,通常只考虑三元组之间的结构信息,忽略了其中包含的语义信息和上下文信息。如果能够利用预训练语言模型来表示这些信息,并用自然句子来表达三元组,就可以提高常识知识图谱补全的效果。本文提出了一种基于BERT的通用常识知识图谱补全框架。本文将三元组转化为自然句子,并利用BERT预训练语言模型来学习其表示向量。实验结果表明,预训练语言模型可以显著提高常识知识图谱的补全性能。这种性能提升得益于常识知识图谱具有丰富的语义信息,并且这与预训练语言模型的语料库相一致。本文进一步发现,将三元组合理、平滑地转化为自然句子具有积极的效果。本文还验证了预训练语言模型在稀疏的常识知识图谱上具有推理能力。 在传统的文档匹配方法中,通常只考虑查询和文档之间的语义相似度,忽略了其中包含的知识信息和层次结构。然而,在实际应用中,查询和文档往往涉及到多个领域、主题或概念,它们之间存在着复杂的关联关系。如果能够利用知识图谱来表示这些关系,并用图神经网络来捕获不同层次的匹配信号,就可以提高文本匹配的精度和效率。本文提出了一种基于知识增强的层次图相关性文档匹配模型。本文通过共享神经网络同时探索语义和知识级别的信号,并利用分层图神经网络明确地捕获不同层次的匹配信号,更好地利用外部知识,并且更灵活地适应不同类型和长度的查询和文档。本文在两个具有代表性的文本匹配数据集上进行的实验,结果验证了应用图层次匹配信号和挖掘知识信息在文本匹配任务中的优势。