摘要
随着科学技术的迅猛发展,人工智能技术已深入影响并改善着人们的日常生活。自然语言处理作为人工智能领域的关键技术之一,在诸多场景中发挥着不可或缺的作用,其中命名实体识别尤为突出。在低资源场景下,由于缺乏足够的语料,常规的命名实体识别方法往往表现不佳。 近年来,预训练模型BERT在命名实体识别任务中展现出强大的性能,成为该领域的主流解决方案。然而,当面临语料库匮乏的情况,单独使用BERT的NER模型性能亦会受到影响。因此,开发一种简单高效的方法,以提高低资源场景下命名实体识别的精度,显得尤为迫切。本研究围绕资源约束下的命名实体识别问题,通过深入研究与实验,以应对低资源场景下的命名实体识别挑战。本文主要的研究内容包括以下两点。 (1)针对常规方法在低资源场景下表现不佳的问题,设计了BERT-BiLSTM-SPAN模型,该模型结合了BERT的强大嵌入能力、BiLSTM的序列特征捕获能力以及SPAN解码器的灵活性。通过对抗性训练,使模型在训练过程中更好地泛化,提高了其在低资源场景下的鲁棒性。此外,本文还提出了两种数据增强算法,分别是同义词替换算法和实体替换算法,通过增加语料达到提升数据集丰富度的目的。 (2)针对语料特征捕捉不够全面的问题,本文提出了基于双流Transformer的深度学习模型。该模型利用传统的词嵌入和格(Lattice)嵌入作为输入,通过两个独立的Transformer进行编码。词嵌入具有准确的表示和上下文感知,格嵌入带有位置信息编码,可以在训练过程中辅助模型捕捉语料特征。然后将编码层的输出进行拼接,并输入到LSTM中继续处理。最后,通过条件随机场进行解码,实现命名实体的准确识别。 通过在Weibo、Ocean数据集上大量的实验结果验证,本文提出的方法能有效提升命名实体识别的精度。它们能克服数据集较少的缺点,在低资源场景下具备有效性。同时,本文提出的两种模型都取得最佳的实验结果,在低资源场景中比目前较先进的基线模型——FLAT、MECT等更有竞争力。本研究也扩展和改良了命名实体识别在低资源场景下的技术方法,这些方法可以泛化至细分的特定领域语料内,解决语料受限的问题。