摘要
电子病历作为医生诊断的辅助工具,具有储存海量数据和提高工作效率的巨大优势,也因此被用作医疗辅助诊断的有效数据集。由于电子病历的复杂性,传统的疾病辅助诊断模型面临用于训练模型的数据难处理、关键特征难以提取、特征维度高等问题,导致疾病辅助诊断的准确率下降。针对此问题,本文将深度学习与电子病历数据相结合,构建检查推荐和疾病辅助诊断模型,从而帮助医生诊断决策。本文的主要贡献如下: (1)提出基于CNN-Attention-BiLSTM的肿瘤标志物检查推荐模型。采用电子病历中病人的主诉、相关的个人史等信息,构建了基于CNN-Attention-BiLSTM的肿瘤标志物检查推荐模型。利用CNN和BiLSTM分别提取电子病历的局部特征、上下文语义特征,而基于注意力机制的CNN和BiLSTM分别提取电子病历的局部关键特征和上下文语义关键特征,利用多层感知机的隐藏层和输出层拼接所有特征,随后进行模型训练,从而判断是否做肿瘤标志物检查。实验表明,CNN-Attention-BiLSTM的肿瘤标志物检查推荐模型的精确率达96.81%,与机器学习算法NB、LR、RF相比,精确率分别提升7.77%、12.49%、9.66%。 (2)提出基于集成学习的肝脏疾病预测模型LBMLP。根据患者的“肿瘤标志物”检查结果,搭建模型对其进行肝脏疾病预测。首先,利用jieba分词技术将电子病历分词并手动筛选;其次,提取电子病历的文本特征,并引入Lasso方法对提取的特征降维;最后,采用集成学习算法Bagging进行肝脏疾病预测,从而判断患者是否患有肝脏疾病。实验表明,本文提出的LBMLP肝脏疾病预测模型F1值为95.3%,相比引入Relief降维方式与不引入降维方式,F1值分别提升10.2%、3.8%。 (3)提出基于XLNet的肝癌辅助诊断模型。若预测出患者患有肝脏疾病,首先,将其对应的电子病历作为部分训练集;其次,采用排列语言模型从全排列中进行采样,再通过注意力机制掩码,在Transformer内部随机遮掉一部分单词;最后,通过电子病历中的全文信息预测某个关键特征,从而输出疾病诊断的结果。实验表明,XLNet模型相比于BERT、Transformer模型,精确率分别提高了3.42%、1.35%,相比于机器学学习算法NB、RF和SVM,精确率分别提升1%、9.74%和10.82%。