多维度特征增强的中文短文本实体链接方法研究

张玥¹

扫码查看

作者信息

1. 重庆交通大学
折叠

摘要

实体链接作为自然语言处理领域的一项重要任务，旨在将文本中的实体指称准确映射到知识库中的相应实体，是信息抽取、问答系统、推荐系统等多个下游任务的基础。当前，随着深度神经网络和预训练语言模型的发展，现有实体链接方法在长文本语境下借助丰富的上下文信息已经取得了较好的效果，然而对于短文本实体链接方法的研究相对较少。中文短文本实体链接任务中，除了普遍存在的实体歧义和名称多样问题，还有中文短文本特有的挑战，包括上下文信息不充分、表达不正式、语法结构不完整等。此外，中英文在语法结构、语义理解和书写表达等方面存在显著差异，进一步增加了实体链接任务的复杂性，导致中文短文本场景下面临更多难题。针对上述问题，本文结合中文短文本数据特点，开展多维度特征增强的中文短文本实体链接方法研究。 1）以两个中文短文本实体链接数据集为研究对象，对其数据特性展开分析。从特性分析结果可知，两个数据集在数据规模、文本内容、知识库构成等方面存在较大差异。此外，数据集中的文本所含实体指称数量较多，其多样性和歧义性增加了模型处理的复杂性。同时，数据集中待消歧文本的长度有限，对模型的上下文理解能力提出较大挑战。 2）针对短文本上下文信息不足、难以获取特征的问题，提出了基于数据增强与多维特征融合的中文短文本实体链接模型。该模型的候选实体生成阶段采用基于别名字典的精准匹配方法生成高质量的候选实体集合。候选实体排序阶段采用二分类方法进行实体消歧，以ERNIE预训练语言模型作为文本编码器，设计了实体嵌入模块和上下文特征提取模块。同时，针对训练样本缺乏多样性，模型采用动态负采样策略在模型训练的每个轮次选取不同的负样本参与训练。在CCKS2020和NLPCC2013中文短文本数据集上验证模型的有效性。实验结果表明本文所提模型能够有效利用多维特征来提高性能。 3）针对模型仅利用粗粒度相关性特征，以及候选实体描述文本存在冗余信息过多的问题，提出了基于注意力机制的语间信息增强实体链接模型。该模型通过层次聚类方法筛选候选实体描述文本以获取关键信息，并设计了一个自适应信息融合模块，通过自注意力机制分别编码实体指称和候选实体，计算两者向量表示之间的余弦相似度距离，从而获取词语级相关性特征，然后与句子级相关性特征相结合获取多粒度语义信息，从而更准确地捕捉实体指称和候选实体之间的相关性。实验结果表明，该模型在CCKS2020和NLPCC2013数据集上的性能均得到提升，并且取得了最好的效果。综上所述，本文面向中文短文本实体链接任务，基于数据集特性分析和特征统计，提出了基于数据增强与多维特征融合的中文短文本实体链接方法、基于注意力机制的语间信息增强实体链接方法，实现了中文短文本场景下实体指称与实体的准确映射，并显著提升了中文短文本实体链接任务性能。

关键词

中文短文本/实体链接/多维度特征增强/特征融合/预训练语言模型/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

李韧

学位年度

2024

学位授予单位

重庆交通大学

语种

中文

中图分类号

段落导航