首页|基于特征融合和神经网络的医疗病历命名实体识别研究

基于特征融合和神经网络的医疗病历命名实体识别研究

帅英杰

基于特征融合和神经网络的医疗病历命名实体识别研究

帅英杰1
扫码查看

作者信息

  • 1. 广西民族大学
  • 折叠

摘要

医疗病历是临床医疗诊断和治疗的基础材料,用于患者临床治疗的全过程。医疗病历通常包含着大量的医疗实体数据。通过命名实体识别技术识别出有价值的医疗实体数据,这对医学数据挖掘任务具有重要意义,也为搭建医疗知识图谱提供数据支持。 在医学医疗病历命名实体识别领域,传统的命名实体识别方法存在特征提取不充分、模型训练时间过长、神经网络模型单一等问题,导致模型鲁棒性不强,识别精准度不高。 针对特征提取不充分的问题,本文提出一种基于语义、词序、BERT预训练模型相结合的多特征融合提取方法。引入Word2vec对文本进行语义特征的提取,利用Fasttext对文本的词序特征进行提取。通过BERT预训练模型获取词向量,解决一词多义的问题。将多元特征向量融合,对相关数据的特征进行提取融合。经过卷积神经网络对融合特征进行再提取,得到特征更加鲜明的数据特征。最后,通过长短时记忆神经网络结合条件随机场模型(BiLSTM-CRF)进行命名实体识别。 针对模型训练时间过长的问题,本文提出一种基于简单循环单元神经网络的命名实体识别方法。通过简单循环单元神经网络可以实现GPU上的并行运算,来缩短命名实体识别模型的训练时间。 针对神经网络模型单一的问题,本文提出一种基于文本卷积神经网络、双向简单循环单元网络和自注意力机制的多神经网络联合模型(TextCNN-BiSRU-SelfAttention)。利用SRU神经网络解决模型训练时间过长的问题,引入文本卷积神经网络解决传统BiLSTM神经网络模型无法提取局部语义特征的问题,通过自注意力机制使得模型训练的重点放在相关数据上,尽可能减少无关数据对模型训练的影响。该模型解决了传统模型不能关注相关数据的问题。最后,将多元特征向量进行融合,充分提取相关数据的局部特征和全局特征,以提高模型识别的精确度。 实验结果表明,在ChineseBLUE(cMedQANER)数据集,我们的模型在精准度、召回率、F1-Measure值都有较为显著的提升,同时模型训练时间明显缩短。

关键词

医疗病历/命名实体识别/特征提取/神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

黄勇

学位年度

2022

学位授予单位

广西民族大学

语种

中文

中图分类号

TP
段落导航相关论文