低资源场景下融入词汇信息的命名实体识别研究

翁茂彬¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

随着科学技术的迅猛发展，人工智能技术已深入影响并改善着人们的日常生活。自然语言处理作为人工智能领域的关键技术之一，在诸多场景中发挥着不可或缺的作用，其中命名实体识别尤为突出。在低资源场景下，由于缺乏足够的语料，常规的命名实体识别方法往往表现不佳。近年来，预训练模型BERT在命名实体识别任务中展现出强大的性能，成为该领域的主流解决方案。然而，当面临语料库匮乏的情况，单独使用BERT的NER模型性能亦会受到影响。因此，开发一种简单高效的方法，以提高低资源场景下命名实体识别的精度，显得尤为迫切。本研究围绕资源约束下的命名实体识别问题，通过深入研究与实验，以应对低资源场景下的命名实体识别挑战。本文主要的研究内容包括以下两点。（1）针对常规方法在低资源场景下表现不佳的问题，设计了BERT-BiLSTM-SPAN模型，该模型结合了BERT的强大嵌入能力、BiLSTM的序列特征捕获能力以及SPAN解码器的灵活性。通过对抗性训练，使模型在训练过程中更好地泛化，提高了其在低资源场景下的鲁棒性。此外，本文还提出了两种数据增强算法，分别是同义词替换算法和实体替换算法，通过增加语料达到提升数据集丰富度的目的。（2）针对语料特征捕捉不够全面的问题，本文提出了基于双流Transformer的深度学习模型。该模型利用传统的词嵌入和格（Lattice）嵌入作为输入，通过两个独立的Transformer进行编码。词嵌入具有准确的表示和上下文感知，格嵌入带有位置信息编码，可以在训练过程中辅助模型捕捉语料特征。然后将编码层的输出进行拼接，并输入到LSTM中继续处理。最后，通过条件随机场进行解码，实现命名实体的准确识别。通过在Weibo、Ocean数据集上大量的实验结果验证，本文提出的方法能有效提升命名实体识别的精度。它们能克服数据集较少的缺点，在低资源场景下具备有效性。同时，本文提出的两种模型都取得最佳的实验结果，在低资源场景中比目前较先进的基线模型——FLAT、MECT等更有竞争力。本研究也扩展和改良了命名实体识别在低资源场景下的技术方法，这些方法可以泛化至细分的特定领域语料内，解决语料受限的问题。

关键词

命名实体识别/数据增强/词汇信息/Transformer/条件随机场

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

张伟文/邹才凤

学位年度

2024

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航