基于特征融合和神经网络的医疗病历命名实体识别研究

帅英杰¹

扫码查看

作者信息

1. 广西民族大学
折叠

摘要

医疗病历是临床医疗诊断和治疗的基础材料，用于患者临床治疗的全过程。医疗病历通常包含着大量的医疗实体数据。通过命名实体识别技术识别出有价值的医疗实体数据，这对医学数据挖掘任务具有重要意义，也为搭建医疗知识图谱提供数据支持。在医学医疗病历命名实体识别领域，传统的命名实体识别方法存在特征提取不充分、模型训练时间过长、神经网络模型单一等问题，导致模型鲁棒性不强，识别精准度不高。针对特征提取不充分的问题，本文提出一种基于语义、词序、BERT预训练模型相结合的多特征融合提取方法。引入Word2vec对文本进行语义特征的提取，利用Fasttext对文本的词序特征进行提取。通过BERT预训练模型获取词向量，解决一词多义的问题。将多元特征向量融合，对相关数据的特征进行提取融合。经过卷积神经网络对融合特征进行再提取，得到特征更加鲜明的数据特征。最后，通过长短时记忆神经网络结合条件随机场模型(BiLSTM-CRF)进行命名实体识别。针对模型训练时间过长的问题，本文提出一种基于简单循环单元神经网络的命名实体识别方法。通过简单循环单元神经网络可以实现GPU上的并行运算，来缩短命名实体识别模型的训练时间。针对神经网络模型单一的问题，本文提出一种基于文本卷积神经网络、双向简单循环单元网络和自注意力机制的多神经网络联合模型(TextCNN-BiSRU-SelfAttention)。利用SRU神经网络解决模型训练时间过长的问题，引入文本卷积神经网络解决传统BiLSTM神经网络模型无法提取局部语义特征的问题，通过自注意力机制使得模型训练的重点放在相关数据上，尽可能减少无关数据对模型训练的影响。该模型解决了传统模型不能关注相关数据的问题。最后，将多元特征向量进行融合，充分提取相关数据的局部特征和全局特征，以提高模型识别的精确度。实验结果表明，在ChineseBLUE(cMedQANER)数据集，我们的模型在精准度、召回率、F1-Measure值都有较为显著的提升，同时模型训练时间明显缩短。

关键词

医疗病历/命名实体识别/特征提取/神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

黄勇

学位年度

2022

学位授予单位

广西民族大学

语种

中文

中图分类号

段落导航