首页|基于实体特征的远程监督关系抽取研究

基于实体特征的远程监督关系抽取研究

温海旭

基于实体特征的远程监督关系抽取研究

温海旭1
扫码查看

作者信息

  • 1. 广西师范大学
  • 折叠

摘要

步入大数据时代,互联网涌现了海量的文本数据,其中蕴含了许多有价值的关系事实。作为信息抽取的子任务,关系抽取具备知识凝练能力,识别出非结构化文本中指定实体间的关系,将其组织成结构化的数据形式,应用于知识图谱补全和智能问答等领域。有监督关系抽取受限于小型训练数据,并且依赖繁琐耗时的人工标注方式,难以完成大规模数据的构建。 远程监督方法提供一种自动标注方案,用一种对齐方式串联知识图谱和文本数据,自动获取大规模语料,逐渐成为了关系抽取的研究热点。然而,远程监督方法虽能扩展数据规模,但是由于标注策略考虑不全,导致错误标注的出现。因此,在远程监督关系抽取中,大部分研究的重点在于降噪,即设计鲁棒的模型来降低噪声数据的影响,提升关系抽取性能。基于上述问题,本文聚焦于实体特征,结合神经网络模型,探究文本中蕴含的实体关联语义。本文工作主要包括以下方面: (1)为了增强模型规避噪声特征的能力,提升远程监督关系抽取性能,本文提出实体感知增强的门控分段卷积神经网络(Gated Piecewise CNN with Entity-Aware Enhancement,EA-GPCNN)。在关系抽取中,每个词和头尾实体之间存在语义依赖,EA-GPCNN采用两层多头自注意力网络来建模这些语义依赖,最后获得实体感知增强的词表征向量。然后,EA-GPCNN使用一个全局门结构,将全局上下文信息集成到每个增强词表征向量,作为PCNN的输入。由实体位置分割的三个段对关系判别的贡献是不同的,EA-GPCNN提出一个段级别的门控机制,对三个分段进行贡献度计算,强化关键段的作用,弱化无关分段的影响。在远程监督关系抽取中,EA-GPCNN有效地建模句子表示,提升关系抽取性能。 (2)为了解决困扰选择性注意力的单句包问题,本文提出实体引导增强特征网络(Entity-Guided Enhancement Feature Network,EGEFN),用于远程监督关系抽取。本研究从具体实例发现,关键关系特征通常蕴含于重要的词和短语中,并可通过实体指导来抽取这些特征。EGEFN首先提出实体引导注意力,依次从单词和短语两个层次出发,计算其与头尾实体的相关性,指导模型关注关键词和短语,捕获重要的关系特征,然后将其用于增强实体表示。随后,两个多级增强的实体表示通过线性层转化为鲁棒的关系表示。然后,EGEFN采用语义融合层来融合多种语义表征,例如PCNN编码的句子表示、多级增强实体表示以及关系表示,来获得最终的增强句子表示。最后,EGEFN引入关系度量聚合门,以鲁棒的关系表示与句子的相关性为度量,聚合所有句子特征,以生成一个包表示。在单句包的情况下,EGEFN能实现稳定的关系分类。

关键词

大数据/关系抽取/远程监督/实体特征/神经网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

朱新华

学位年度

2021

学位授予单位

广西师范大学

语种

中文

中图分类号

TP
段落导航相关论文