基于多特征增强的实体属性抽取研究

张世奇¹

扫码查看

作者信息

1. 苏州大学
折叠

摘要

属性抽取旨在从非结构化文本中抽取与文本实体对应的属性和属性值，是知识图谱构建的一项重要子任务。目前，基于深度神经网络模型的属性抽取任务己取得长足进步。但是，属性抽取任务中依然存在较多亟待解决的问题，包括缺乏高质量标注数据、模型未能充分使用知识库中的知识、未登录词识别性能较低以及属性抽取模型对文本特征学习能力不足等。针对上述问题，本文的主要内容如下: (1)构建了基于远程监督的电商领域属性抽取数据集。本文基于电商文本和商品类目属性词典，通过远程监督的方式构建了一个包含类目标题数据和微博数据的电商属性抽取语料。针对远程监督标注存在大量漏标的问题，提出基于扩展三元组的远程监督标注方法，以较低的成本获取大量高质量的标注数据。为了充分展示数据特点，本文基于深度神经网络模型和多种预训练语言模型在该数据集上进行了一系列实验。实验结果表明，扩展三元组的远程监督标注方法有利于提高标注数据的质量，可有效缓解远程监督引入的漏标问题。 (2)研究基于门控卷积方法的多特征增强属性抽取。随着知识图谱构建技术的日趋成熟，各领域的从业人员着手利用属性抽取技术丰富知识图谱实体节点的属性表达。然而现有的属性抽取模型难以有效抽取文本中的未登录词，且未能有效结合现有的领域知识库的知识。为解决未登录词难以识别的问题，本文将属性抽取任务转化为机器阅读理解任务，使用门控卷积操作提取文本中蕴含的片段特征，提高模型的属性抽取能力。此外，本文将知识图谱的三元组与文本包含的结构化片段相结合作为结构化信息，以提问的方式增强模型对属性类型的理解。实验结果表明，利用结构化信息与门控卷积方法可有效提高模型识别未登录词的能力。 (3)研究基于多任务框架的多特征增强属性抽取。针对属性抽取任务中模型泛用性不足、未登录词的识别率低以及对属性类型学习不充分的问题。本文提出一种词边界特征增强方法，通过强化文本中各个词汇的边界特征，帮助模型准确定位属性值首尾位置，同时将分词特征融入文本编码，强化模型对文本词汇特征的学习。此外，本文结合多任务框架，将句子中是否存在待抽取属性作为辅助任务增强模型对属性类型的感知，并通过与结构化信息交互的方式进一步提高模型对属性类型特征的捕获。为证明所提出的模型具有良好的泛用性，本文在电商数据、影视数据和人物属性数据进行了充分实验。实验结果表明，本文提出的模型能有效识别未登录词且具备良好的泛用性。综上所述，本文分别从数据集构建、特征提取、多任务联合训练这三个角度出发，利用多种特征来改进属性抽取系统的性能，一定程度上解决了属性抽取任务现有的难点，并结合大量实验证明所提方法的有效性。

关键词

实体属性抽取/多特征增强/远程监督/特征学习/多任务学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

陈文亮；周夏冰

学位年度

2022

学位授予单位

苏州大学

语种

中文

中图分类号

段落导航