融合知识的小样本命名实体识别方法

张靖怡¹

扫码查看

作者信息

1. 北京交通大学
折叠

摘要

命名实体识别任务旨在识别出文本中实体概念的命名性指称并标明其类别(例如人名、地名、组织机构名等)，是自然语言处理领域中的一项重要基础任务，为机器翻译、对话理解等下游任务的发展提供了有力支撑。尽管深度学习技术的迅速发展使命名实体识别任务在通用领域文本处理上取得显著突破，但该技术对高质量标注语料的严重依赖，导致其在生物医学、社交媒体等标注语料稀缺的垂直领域文本处理上性能较差，而高昂的人工标注成本进一步增加了标注语料的获取难度。因此，研究小样本命名实体识别任务具有重要的应用价值。数据增强方法作为小样本命名实体识别任务的重要研究思路之一，借助辅助数据或模型，对目标领域中的小样本数据集进行数据扩充或表示增强。现有的研究一方面严重忽视了通用领域和目标领域中不同实体存在的明显结构差异;另一方面则是缺少对不同领域之间的标注一致性问题的有效处理。为了解决以上问题,本文围绕融合知识的小样本命名实体识别方法展开研究，主要工作包括以下两个方面: (1)提出了融合实体结构知识的数据增强方法，在原有小样本数据基础上，使用预训练语言模型进行数据生成，利用KL-散度对替换前后的实体内部词间关系进行相似性约束，确保生成内部结构接近目标领域实体的伪数据，帮助模型学习目标领域命名实体特征。方法使用目标领域实体结构特征对数据增强过程加以约束，针对性地提高了生成数据的质量。 (2)提出了融合实体类别知识的表示增强方法，设计了一种基于标签约束的预训练方法，通过筛选出不同领域数据集中包含的共有实体，并将实体替换为对应的类别标签进行掩码预测，以建模同一实体在不同领域数据集的标注一致性关系,帮助预训练语言模型学习不同领域之间的标注差异。方法利用同一实体的不同标注信息对预训练语言模型的特征学习过程进行增强，进一步缓解领域间标注差异的影响。本文提出的两种方法在小样本命名实体识别任务的六个公开数据集上进行了详尽的实验，并取得了显著性能提升。同时，联合利用所设计的两种方法在四个扁平结构实体数据集上的结果相比现有最先进方法取得了平均1.9％的提升，并在现有方法难以解决的嵌套结构命名实体识别任务上取得了先进的结果，上述实验结果验证了本文提出的融合知识的小样本命名实体识别方法的有效性和先进性。

关键词

小样本命名实体识别/知识融合/数据增强/表示增强/预训练语言模型

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

陈钰枫

学位年度

2024

学位授予单位

北京交通大学

语种

中文

中图分类号

段落导航