摘要
医疗病历是临床医疗诊断和治疗的基础材料,用于患者临床治疗的全过程。医疗病历通常包含着大量的医疗实体数据。通过命名实体识别技术识别出有价值的医疗实体数据,这对医学数据挖掘任务具有重要意义,也为搭建医疗知识图谱提供数据支持。 在医学医疗病历命名实体识别领域,传统的命名实体识别方法存在特征提取不充分、模型训练时间过长、神经网络模型单一等问题,导致模型鲁棒性不强,识别精准度不高。 针对特征提取不充分的问题,本文提出一种基于语义、词序、BERT预训练模型相结合的多特征融合提取方法。引入Word2vec对文本进行语义特征的提取,利用Fasttext对文本的词序特征进行提取。通过BERT预训练模型获取词向量,解决一词多义的问题。将多元特征向量融合,对相关数据的特征进行提取融合。经过卷积神经网络对融合特征进行再提取,得到特征更加鲜明的数据特征。最后,通过长短时记忆神经网络结合条件随机场模型(BiLSTM-CRF)进行命名实体识别。 针对模型训练时间过长的问题,本文提出一种基于简单循环单元神经网络的命名实体识别方法。通过简单循环单元神经网络可以实现GPU上的并行运算,来缩短命名实体识别模型的训练时间。 针对神经网络模型单一的问题,本文提出一种基于文本卷积神经网络、双向简单循环单元网络和自注意力机制的多神经网络联合模型(TextCNN-BiSRU-SelfAttention)。利用SRU神经网络解决模型训练时间过长的问题,引入文本卷积神经网络解决传统BiLSTM神经网络模型无法提取局部语义特征的问题,通过自注意力机制使得模型训练的重点放在相关数据上,尽可能减少无关数据对模型训练的影响。该模型解决了传统模型不能关注相关数据的问题。最后,将多元特征向量进行融合,充分提取相关数据的局部特征和全局特征,以提高模型识别的精确度。 实验结果表明,在ChineseBLUE(cMedQANER)数据集,我们的模型在精准度、召回率、F1-Measure值都有较为显著的提升,同时模型训练时间明显缩短。