摘要
随着医学信息化建设的快速发展,电子病历已成为医院诊疗的重要依据,如何对有价值的医学信息进行精确识别已成为研究热点。在进行实体识别时,传统识别方法特征利用相对简单,没有充分挖掘实体相关特征,同时也无法学习到深度双向的全文语义信息。因此该文针对以上问题采用深度学习识别算法,进行了以下研究。 首先,针对实体内部结构信息未被充分挖掘,造成形态层次特征丢失的情况,构建融合字及笔画特征的双向长短期记忆网络(LongShortTermMemory,LSTM)进行实体特征提取。通过n元笔顺训练层提取每个字符的笔顺特征,使用大规模医学语料训练字向量特征,最后拼接两个特征一起通过双向LSTM网络进行识别标注。实验表明,融合字及n元笔顺的增强网络各项性能均优于典型双向LSTM网络。 其次,提出了基于医学词增强的联合神经网络识别模型,来解决外部分词信息丢失的情况。使用长短时记忆网络及一维卷积网络捕获字符级特征,通过自构建大规模医学词典来匹配以输入字符结尾的医学词,最后将匹配的词级信息加入词增强网络中进行增强识别。实验结果表明,该方法加快了模型的收敛速度,提升了病历文本的性能表现。 最后,针对医学训练语料缺乏,传统网络无法学习到深度双向的全文语义信息的问题,设计了一种基于双向编码表示(BidirectionalEncoderRepresentationfromTransformers,BERT)的门控神经网络识别模型。该模型采用基于全词掩码的中文预训练模型,加强了词语的全文语义联系,利用了大量无标注医学文本,结合双向门控循环神经网络捕捉特征前后联系的优势,对语料进行上下文语义抽取,最后通过条件随机场(ConditionalRandomField,CRF)层解决标签偏置问题。实验表明该模型降低了语料数据维度,节省了网络计算资源,提高了病历识别的准确率。