基于深度学习的电子病历实体识别研究

韩治超¹

扫码查看

作者信息

1. 燕山大学
折叠

摘要

随着医学信息化建设的快速发展，电子病历已成为医院诊疗的重要依据，如何对有价值的医学信息进行精确识别已成为研究热点。在进行实体识别时，传统识别方法特征利用相对简单，没有充分挖掘实体相关特征，同时也无法学习到深度双向的全文语义信息。因此该文针对以上问题采用深度学习识别算法，进行了以下研究。首先，针对实体内部结构信息未被充分挖掘，造成形态层次特征丢失的情况，构建融合字及笔画特征的双向长短期记忆网络(LongShortTermMemory,LSTM)进行实体特征提取。通过n元笔顺训练层提取每个字符的笔顺特征，使用大规模医学语料训练字向量特征，最后拼接两个特征一起通过双向LSTM网络进行识别标注。实验表明，融合字及n元笔顺的增强网络各项性能均优于典型双向LSTM网络。其次，提出了基于医学词增强的联合神经网络识别模型，来解决外部分词信息丢失的情况。使用长短时记忆网络及一维卷积网络捕获字符级特征，通过自构建大规模医学词典来匹配以输入字符结尾的医学词，最后将匹配的词级信息加入词增强网络中进行增强识别。实验结果表明，该方法加快了模型的收敛速度，提升了病历文本的性能表现。最后，针对医学训练语料缺乏，传统网络无法学习到深度双向的全文语义信息的问题，设计了一种基于双向编码表示(BidirectionalEncoderRepresentationfromTransformers,BERT)的门控神经网络识别模型。该模型采用基于全词掩码的中文预训练模型，加强了词语的全文语义联系，利用了大量无标注医学文本，结合双向门控循环神经网络捕捉特征前后联系的优势，对语料进行上下文语义抽取，最后通过条件随机场(ConditionalRandomField,CRF)层解决标签偏置问题。实验表明该模型降低了语料数据维度，节省了网络计算资源，提高了病历识别的准确率。

关键词

实体识别/电子病历/深度学习/预训练模型/循环神经网络

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

刘洺辛/赵玉全

学位年度

2021

学位授予单位

燕山大学

语种

中文

中图分类号

段落导航