摘要
心力衰竭,简称心衰,是心脏疾病发展的终末期。尽管近年来深度学习方法在医学领域得到广泛的关注,但想大规模地分析电子健康记录(EHR)数据,仍具有极大的挑战性。在大量医学文本中,及时识别心力衰竭患者并建立再入院预测模型,可以使临床医生采取正确的治疗从而防止患者病情恶化、减轻患者费用负担。本文利用MIMIC-Ⅲ公开数据库的非结构化数据进行心衰疾病诊断和再入院预测的研究。相比于结构化数据,会包含历史疾病和家族疾病等更为丰富的患者信息,但同时存在口语化词汇多,内容稀疏等问题。因此,以解决上述问题为出发点,MIMIC-Ⅲ公开数据库中非结构化数据为实验支撑,搭建深度学习模型,对心衰患者进行诊断研究并进一步判断心衰患者的再入院情况,从而使心衰患者的治疗过程更加及时高效。 本文主要工作如下: (1)MIMIC-Ⅲ数据库中可用于研究的心衰患者为10270位,同时,数据库中的心肌梗死患者和高血压患者,分别为4464位和17644位。进一步,针对心衰患者再入院的研究,将提取的10270位心衰患者以不再入院、30天内再入院和30天后再入院三个研究类别进行划分,分别得到6948位、747位和2575位患者。 (2)针对心衰患者的诊断搭建模型,首先使用词频-逆词频(TF-IWF)模型和潜在狄利克雷分配(LDA)模型分别从医学文本中提取关键字集和主题词集,完成病历文本内容表示上的扩展,最后应用改进的BiRNN模型,即嵌入全局注意力机制和门控机制两个模块,将改进的分类器命名为Gated-Attention-BiRNN(GA-BiRNN),从海量医学文本中识别心力衰竭。本文结果表明,提出的KTI-RNN模型F1分数为85.57%,准确率为85.59%。在医学文本特征扩展的基础上,不仅克服了内容稀疏的问题,还通过改进的分类器,取得良好的分类效果,从而辅助医生进行心衰诊断。 (3)使用提出的M-BERT模型对心衰患者再入院进行预测,即在BERT模型的embedding上加入对抗训练FGM模型。结果表明,本文提出的M-BERT模型对于心衰患者不再入院的F1分数为87.15%,准确率为85.98%;对于心衰患者30天内再入院的F1分数为84.80%,准确率为83.24%;对于心衰患者30天后再入院的F1分数为86.01%,准确率为86.14%。M-BERT模型的预测效果明显优于传统的深度学习模型。使用M-BERT模型可以辅助医生判断,使治疗过程更加及时高效,从而降低心衰患者再入院率。