首页|基于多特征融合的实体关系联合抽取方法研究

基于多特征融合的实体关系联合抽取方法研究

朱兴华

基于多特征融合的实体关系联合抽取方法研究

朱兴华1
扫码查看

作者信息

  • 1. 哈尔滨工程大学
  • 折叠

摘要

随着互联网的迅猛发展,用户数量逐渐呈现爆炸式增长,数据量亦指数级扩张,如何处理海量的数据从中得到具有重要价值的信息成为热点问题。实体关系抽取应运而生,其旨在从非结构化或者半结构化文本中抽取实体及实体对间的关系,转化为三元组形式的结构化信息,为知识图谱构建、问答系统等下游智能化应用提供有力的数据支持。 针对目前的实体关系抽取模型对实体层次特征利用不够全面影响模型抽取效果的问题,本文提出了基于实体类型的多特征实体关系联合抽取模型MF_Joint。对于关系抽取来说,文本中的实体特征信息尤为重要,实体类型特征能够增强实体信息对关系抽取的约束力,有助于实体间关系的正确预测。MF_Joint模型将头实体特征向量输入到神经网络中计算当前头实体属于每种类型的概率,对概率值求和得到头实体类型特征向量,与文本特征向量和头实体特征向量融合输入到关系抽取子模型中输出完整的三元组。本文在两个公开数据集NYT和WebNLG上对MF_Joint模型进行三元组预测,实验结果表明MF_Joint模型与基线模型相比表现更佳,但在复杂文本场景中提升效果受限。 为了提高模型在复杂文本中的表现效果,本文从层归一化和注意力机制的角度探索模型的特征融合方法,提出了基于CLN的实体关系联合抽取模型MF_Joint+CLN和基于注意力机制的实体关系联合抽取模型MF_Joint+AFF。本文首先介绍基于CLN的特征融合,将实体层面的特征作为条件与文本特征融合,在模型训练过程中自适应调整待融合特征的比重。其次,提出了基于注意力机制的特征融合方法AFF,结合全局信息和局部信息获得注意力值对待融合特征做注意力计算。上述两种方式使模型在关系抽取时重点关注与当前处理头实体相关的文本信息,有利于三元组的正确抽取。本文将MF_Joint+CLN模型和MF_Joint+AFF模型在NYT数据集和WebNLG数据集上进行三元组预测,实验结果表明MF_Joint+CLN模型和MF_Joint+AFF模型能够有效提高模型的特征表达能力,增强模型中实体识别子模型和关系抽取子模型之间的交互性,有助于模型性能进一步的提升。其中,MF_Joint+AFF模型表现更好,尤其是在数据更复杂的NYT数据集上提升效果更明显。

关键词

实体识别/关系抽取/实体类型/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

刘杰

学位年度

2023

学位授予单位

哈尔滨工程大学

语种

中文

中图分类号

TP
段落导航相关论文