摘要
电子病历是一种数字化的医疗记录形式,通过命名实体识别,可以将电子病历中的非结构化信息转化为结构化的医学知识,这对于医疗系统的信息化建设、临床决策以及医学研究等各个方面都具有非常重要的积极影响。 随着深度学习方法以及预训练语言模型的流行,通用领域命名实体识别模型的性能得到了显著提升。但是,在中文电子病历中医学类专业术语较多,且不规范用语问题严重,导致命名实体识别效果欠佳。同时,在中文电子病历中存在很多嵌套实体,由于医学类实体普遍较长且语义较为复杂,采用基于跨度的方式对嵌套实体进行识别时面临着模型计算量大以及跨度分类不准确等问题。针对上述问题,本文对中文电子病历的命名实体识别方法展开研究,具体研究内容如下: (1)对于中文电子病历连续命名实体识别问题,本文提出了基于多种特征融合的命名实体识别模型(FNERMF模型)。在该模型中,使用了输入的中文电子病历文本中的多种特征,增强模型对于输入文本的语义表示能力,并通过Cross-Transformer将多种特征表示进行充分的融合。为了增强模型的特征提取能力,同时通过双向长短期记忆网络和文本卷积神经网络对特征进行提取。此外,采用合作学习的训练方式进一步提升该模型的性能。 (2)对于中文电子病历嵌套命名实体识别问题,本文提出了基于对比学习增强的命名实体识别模型(NNERCL模型)。在该模型中,通过实体跨度边界概率计算的方式对输入文本中包含的所有跨度进行初步筛选,并构建候选跨度集合,实现了在不遗漏实体跨度的同时降低模型计算量的目的。此外,为了提高跨度分类的准确率进而提升模型的整体性能,在该模型中采用对比学习的方式对候选跨度进行分类。 (3)将本文提出的FNERMF模型与NNERCL模型分别在中文电子病历连续命名实体识别数据集CCKS2018、CCKS2019以及嵌套命名实体识别数据集CHIP2020上进行了相关实验与结果分析。实验结果表明,本文提出的两种模型在中文电子病历连续命名实体识别任务以及嵌套命名实体识别任务中,均有一定的性能提升。