基于数据增强和主动学习的低资源生物医学命名实体识别方法

杨博文¹

扫码查看

作者信息

1. 上海海事大学
折叠

摘要

生物医学领域的研究热点频繁更新，从繁冗复杂的海量数据中识别出生物医学实体，是目前生物医学领域知识图谱构建以及搭建生物医学大数据平台的基石。随着深度学习的发展，在现有预训练-微调范式下，命名实体任务出现了一系列基于BERT（BidirectionalEncoderRepresentationTransformers）的命名实体识别模型。而对于生物医学领域而言，领域的特殊性及其专业性，导致新的研究项目初期往往缺乏深度学习所需的大量标注资源，同时标注需要耗费大量人力和物力。本文针对生物医学命名实体识别任务在低资源情况下的标注资源匮乏的问题，提出了融合主动学习和数据增强的低资源生物医学命名实体识别方法。针对生物医学命名实体识别标注资源稀缺的问题，本文提出了一种基于回译和SeqMix的数据增强方法，该方法首先对少量的标注数据根据其标签进行分段，将相同标签实体分为一段，并对非实体段落采用翻译模型进行回译操作，引入具有语法一致性的增强文本。其次，对实体段落采用以Mixup为核心的SeqMix算法进行伪标签实体构建，进一步提高增强文本中的实体多样性。最后，以BioGPT（GenerativePre-trainedTransformerforBiomedicalTextGenerationandMining）为基础，设计了一种生物医学增强文本鉴别器，通过计算增强文本的困惑度对增强文本进行筛选。同时，针对生物医学的深层语义特征，本文引入了BioBERT（BidirectionalEncoderRepresentationsfromTransformersforBiomedicalTextMining）预训练模型，从而更好地捕获生物医学领域中的文本语义特征。本文在两个公开生物医学命名实体识别数据集上进行了方法有性实验以及文本多样性实验，结果表明本文方法有效地提高了增强数据中的文本多样性，并在少量标注资源情况下显著地提高了生物医学命名实体识别模型的准确性。针对生物医学命名实体的低资源场景，本文提出一种融合动态实体筛选机制和主动增强学习的命名实体识别算法。该算法基于经典主动学习框架，在每一轮迭代过程中，采用本文提出的数据增强方法生成额外的标注数据，从而提高标注数据的利用率。同时，为了避免数据增强过程中的噪声实体问题，引入了动态阈值实体筛选机制。每一轮迭代过程中，根据已有标注数据对每一个实体类别动态地计算阈值，并通过衡量实体间语义相似度，对增强实体计算类别置信度，从实体层面约束增强文本的质量。在两个公开生物医学命名实体识别数据集上的实验结果表明，本文的数据增强方法与主动框架相结合，能在标注资源较少的阶段显著提高识别准确度。同时引入的动态实体筛选机制，有效地限制了数据增强过程中噪声实体带来的影响，进一步提升了低资源命名实体识别模型的准确性。综上所述，本文提出的命名实体识别数据增强方法，从增强文本的语法一致性以及实体多样性两方面对现有方法进行了改进，使其能够运用于生物医学领域，提升了低资源情况下的生物命名实体识别模型准确性。同时，本文将主动学习与数据增强相结合，通过融入动态实体筛选机制，减少了数据增强过程中噪声实体所带来的影响，进一步提高了低资源情况下命名实体标注资源的使用率以及模型的准确性。上述研究成果适用于生物医学命名实体识别项目启动初期，标注资源较少的情形，并可用于辅助生物医学知识图谱构建以及生物医学大数据平台搭建，具有重要的现实意义。

关键词

命名实体识别/主动学习/数据增强/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李美晶/周莉

学位年度

2023

学位授予单位

上海海事大学

语种

中文

中图分类号

段落导航