基于机器学习的高血压肾病预测模型研究

王萧¹

扫码查看

作者信息

1. 重庆医科大学
折叠

摘要

目的：高血压肾病是由原发性高血压引起的肾脏结构和功能损害。如果发现不及时，干预滞后，很可能发展为肾衰竭，威胁患者生命。目前对高血压肾病的常规诊断有体格检查、尿常规检查、肾穿刺、MRI检查等方法，但依托这些方法诊断出的高血压肾病患者已经具有严重的症状。若能在高血压肾病的发病初期就及时诊断，并进行干预治疗，可以极大地减缓病程并减轻病人的痛苦和经济压力。本研究利用2478份患者的临床病历资料，结合机器学习算法构建了一种能早期诊断高血压肾病的模型，并对其进行验证和解释，以期能尽早诊断出高血压肾病患者，为临床医生诊断和治疗提供参考依据。方法：采用横断面研究方法，收集重庆医科大学7家附属医疗机构于2013年1月1日—2021年12月31日收治的2478例原发性高血压患者的临床信息资料，其中795例为高血压肾病患者（研究组），1683例为单纯原发性高血压患者（对照组）。随机抽取70%（1734例）患者的资料作为训练集构建预测模型，其余30%(744例)作为测试集进行内部验证。通过单因素分析和“套索算法+逻辑回归”筛选独立危险因素，应用基于机器学习的支持向量机（SVM）、随机森林(RF)、极限梯度上升（XGBoost）、朴素贝叶斯（NB）和轻型梯度提升机（lightGBM）算法建立预测模型。运用阳性预测率（PPV）、阴性预测率（NPV）、敏感性、特异性、准确性和ROC曲线下面积（AUC）等评估参数比较并验证这几种方法构建的模型对高血压肾病的早期诊断价值，然后挑选出其中表现能力最好的模型，并利用沙普利可加性解释（SHAP）方法进行模型解释。结果：经过筛选，最后纳入2478例原发性高血压患者的临床数据进行分析，其中795例为高血压肾病患者。单因素分析筛选出了45项有统计学意义的指标，“套索算法+逻辑回归”分析从这45项指标中筛选出了13项显著性危险因子。它们分别是性别、年龄、白蛋白、尿白细胞计数、肌酐、氯、尿酸、平均红细胞体积、前白蛋白、嗜碱性粒细胞计数、酸碱度、纤维蛋白原、总胆固醇。将这13项指标纳入机器学习模型的训练中，成功构建了SVM、RF、XGBoost、NB和lightGBM5种机器学习模型。然后利用测试集对这些机器学习模型进行内部验证，其中SVM、RF、XGBoost、NB和lightGBM的AUC值分别为0.791、0.889、0.877、0.785、0.860，准确性分别为0.832、0.867、0.859、0.828、0.870。RF模型在内部验证中的预测能力强于其他四种机器学习模型，AUC=0.889，其能够为临床医生对高血压肾病的早期诊断提供依据。筛选出的RF模型通过SHAP方法分析来解释模型，其中SHAP特征重要性显示肌酐、尿白细胞计数、尿酸、年龄和前白蛋白对模型的贡献力度最大。结论：肌酐、尿白细胞计数、尿酸、年龄和前白蛋白等临床易获得的指标可以作为高血压肾病早期诊断的风险因素。基于机器学习算法构建的机器学习模型（尤其是RF模型）对高血压肾病的早期诊断具有较高的价值。利用SHAP分析方法能够较好地解释机器学习模型，增强模型地临床适用性。

关键词

原发性高血压/高血压肾病/机器学习/预测模型/随机森林

引用本文复制引用

授予学位

硕士

学科专业

临床医学;医学信息学

导师

王惠来

学位年度

2023

学位授予单位

重庆医科大学

语种

中文

中图分类号

段落导航