摘要
在医疗信息化发展过程中,电子病历一直是建设的重点。现代医院的电子病历系统中已经积累了大量非结构化数据,这些数据有着丰富的医疗研究价值,但由于缺乏结构化和标准化,这些数据的潜在价值难以被挖掘。血管外科作为一门重要的外科学科,其研究内容主要涉及人体血管类疾病的病理、诊断、治疗、预防等方面,这些研究同样需要大量结构化临床数据的支持。命名实体识别作为一种重要的信息提取方法,能够从医疗电子病历中识别出各种专业、复杂的实体。因此,为了进一步推进血管外科领域的发展,本文使用深度学习技术对其命名实体识别方法进行了深入研究。本文的主要工作内容如下: (1)针对血管外科领域研究数据匮乏的问题,本文基于浙江省某三甲医院血管外科真实患者的病程记录和出院记录,构建了一个小规模的专科数据集作为本文的实验数据,该数据集采用BIOES标注体系,包含五大类医学实体。本文提出了一种基于MacBert预训练语言模型与注意力机制的命名实体识别模型MBAC,该模型使用MacBert充分考虑上下文信息来生成动态字向量,使用BiGRU提取特征,通过多头自注意力机制捕捉序列内部元素间的关系,最后通过CRF进行标签解码。实验结果显示MBAC模型在本文数据集上的精确率、召回率、F1值均优于BiLSTM-CRF、Bert-BiLSTM-CRF等经典模型,验证了该模型的有效性。 (2)本文在MBAC模型的基础上提出了一种基于字形特征与模型集成的命名实体识别模型MBDAC-FF-WV,该模型针对现有模型单一字向量表征不足、单一模型识别能力不足的问题,在输入表示层引入了汉字四角码与汉字五笔两个维度的字形信息,在特征提取层对BiGRU与DGCNN进行特征融合,并增加了投票层对多个模型的输出结果加权投票。实验结果表明MBDAC-FF-WV模型的识别能力较MBAC模型有了进一步提升,验证了字形特征嵌入与模型集成的有效性。 (3)本文设计并实现了一个血管外科电子病历识别系统,将本文的研究成果供医护人员和科研工作者使用。该系统采用浏览器/服务器架构,包括用户管理、实体识别、数据查阅、数据分析四大模块,提供了权限管理、文本识别、记录增删、统计分析等功能。本文对系统进行了详尽的功能测试,验证了系统的可用性。 综上,本文构建了一个血管外科领域的专科数据集,通过设计和改进深度学习模型来提升该领域的命名实体识别性能,并将研究成果进行了工程应用。