摘要
科技的飞速进步,使得互联网文本信息呈现指数化增长的趋势。从浩如烟海的文本信息中准确抽取实体和关系,对于构建知识图谱、实现智能对话等前沿技术有着重要的意义和价值。实体识别和关系抽取任务过去常采用的是流水线方法,不考虑两个子任务的关联性,而将它们独立看待。即先从文本中抽取出可能的实体并进行类别预测,然后对得到的结果集中的实体两两进行关系的分类。流水线方法存在诸多问题,例如级联误差、子任务相关性不足、信息冗余、语义信息获取不足等。针对上述问题,本文围绕实体和关系抽取联合任务,对命名实体识别、关系抽取以及联合模型领域的研究现状进行了充分的调研,分析了当前相关研究中的缺陷,重点针对文本语义增强方法和分解的方法,研究了两种联合抽取模型,并实现了两个模型的应用。以下是本文的主要工作内容: (1)针对流水线方法对命名实体识别和关系抽取两个任务的相关性关注度不足以及上下文语义信息获取不充分等问题,研究了一种基于上下文语义增强的联合实体与关系抽取模型。通过共用BERT编码器实现参数共享,并采用对比学习的方法获取句子级文本和实体间文本的语义特征,将其融入到实体和关系的特征表示中,同时动态调整两个任务的损失以使联合模型的整体性能最优化。模型在CoNLL04、ADE和ACE05数据集上实体识别和关系抽取均取得了较好的性能,证明了模型的有效性。 (2)针对实体冗余以及重叠关系识别欠缺等问题,研究了一种基于分解策略的实体关系联合抽取模型。将原任务拆分为两个子任务,一个是头实体识别,另一个是相应的尾实体及其关系的联合识别。对于特定的头实体,其特征信息对尾实体的识别具有正向增益,因此采用层次化的方法,在进行尾实体和关系抽取子任务中融入头实体信息,同时采用指针机制来加强边界的感知以及类别信息的抽取。模型在数据集NYT和WebNLG上取得了较好的成绩,证明了模型的有效性。 (3)设计构建了实体和关系抽取的原型系统,将本文所研究的两种模型相结合,对文献摘要进行知识获取。实现了从非结构化的文献摘要中抽取实体关系三元组,并对结果进行了分析展示。