基于深度学习的肝癌辅助诊断模型

王文霞¹

扫码查看

作者信息

1. 西北师范大学
折叠

摘要

电子病历作为医生诊断的辅助工具，具有储存海量数据和提高工作效率的巨大优势，也因此被用作医疗辅助诊断的有效数据集。由于电子病历的复杂性，传统的疾病辅助诊断模型面临用于训练模型的数据难处理、关键特征难以提取、特征维度高等问题，导致疾病辅助诊断的准确率下降。针对此问题，本文将深度学习与电子病历数据相结合，构建检查推荐和疾病辅助诊断模型，从而帮助医生诊断决策。本文的主要贡献如下：（1）提出基于CNN-Attention-BiLSTM的肿瘤标志物检查推荐模型。采用电子病历中病人的主诉、相关的个人史等信息，构建了基于CNN-Attention-BiLSTM的肿瘤标志物检查推荐模型。利用CNN和BiLSTM分别提取电子病历的局部特征、上下文语义特征，而基于注意力机制的CNN和BiLSTM分别提取电子病历的局部关键特征和上下文语义关键特征，利用多层感知机的隐藏层和输出层拼接所有特征，随后进行模型训练，从而判断是否做肿瘤标志物检查。实验表明，CNN-Attention-BiLSTM的肿瘤标志物检查推荐模型的精确率达96.81%，与机器学习算法NB、LR、RF相比，精确率分别提升7.77%、12.49%、9.66%。（2）提出基于集成学习的肝脏疾病预测模型LBMLP。根据患者的“肿瘤标志物”检查结果，搭建模型对其进行肝脏疾病预测。首先，利用jieba分词技术将电子病历分词并手动筛选；其次，提取电子病历的文本特征，并引入Lasso方法对提取的特征降维；最后，采用集成学习算法Bagging进行肝脏疾病预测，从而判断患者是否患有肝脏疾病。实验表明，本文提出的LBMLP肝脏疾病预测模型F1值为95.3%，相比引入Relief降维方式与不引入降维方式，F1值分别提升10.2%、3.8%。（3）提出基于XLNet的肝癌辅助诊断模型。若预测出患者患有肝脏疾病，首先，将其对应的电子病历作为部分训练集；其次，采用排列语言模型从全排列中进行采样，再通过注意力机制掩码，在Transformer内部随机遮掉一部分单词；最后，通过电子病历中的全文信息预测某个关键特征，从而输出疾病诊断的结果。实验表明，XLNet模型相比于BERT、Transformer模型，精确率分别提高了3.42%、1.35%，相比于机器学学习算法NB、RF和SVM，精确率分别提升1%、9.74%和10.82%。

关键词

肿瘤标志物/电子病历/特征降维/集成学习/XLNet模型/疾病诊断

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

马满福/沙孝聪

学位年度

2022

学位授予单位

西北师范大学

语种

中文

中图分类号

R73

段落导航