基于Stacking融合模型的高血压风险预测研究

刘洋¹

扫码查看

作者信息

1. 华中农业大学
折叠

摘要

人口老龄化进程不断加快、人们不健康的生活作息方式、快节奏社会所带来的压力等挑战，越来越多的人出现了健康问题，慢性病已经成了我国主要的疾病之一，特别是高血压疾病。尽管已经有很多研究探讨了高血压的防治，但高血压的影响因素分析仍然是一个严峻的挑战。近年来，随着医疗信息技术和数字化管理系统的不断发展，越来越多的机器学习技术应用于高血压影响因素分析，以识别潜在的危险因素，预测发病可能，这些方法的使用对于更好地了解高血压的潜在机制，对机器学习在高血压领域的应用有一定意义。首先基于某医院体检数据进行数据探索，发现不同人群之间高血压患病情况存在差异，按照年龄和性别划分为青年、中年、男性和女性四个人群，然后对数据集进行无关变量处理、缺失值删除和填充、异常值判断、数据编码等预处理，同时对数据进行描述性统计分析。其次运用Lasso、XGBoost、随机森林和SVM-RFE四种特征选择方法对特征进行筛选，选出最优子集。针对数据不平衡问题，采用SMOTEENN综合采样方法进行处理，再结合随机森林、SVM、神经网络和XGBoost四种算法模型进行预测，用AUC、准确率和F1值来比较不同模型的优劣，结果表明，青年、中年、男性和女性四个人群各自的最优模型分别为随机森林&SVM、XBGoost&XGBoost、XBGoost&XGBoost、XBGoost&XGBoost。最后基于不同人群的最优模型的基础上，进行Stacking融合，第一层基学习器选取随机森林、XGBoost、SVM、神经网络，第二层元学习器选取Logistic回归。对比AUC、准确率和F1值三个指标，结果表明:Stacking融合模型针对不同人群并不一定能提升效果。青年和女性的最优模型均为Stacking融合模型，而中年和男性的最优模型均为XGBoost&XGBoost。并对四个人群最优模型的特征重要性分别进行排序，横向对比，对比了不同人群高血压患者之间的异同，应该多注意收缩压、嗜酸性细胞百分比、碱性磷酸酶、舒张压、尿素氮、体重、甘油三酯和空腹血糖这些指标，为以后高血压防治提供了一定的参考价值。

关键词

高血压/特征选择/不平衡数据/集成算法/Stacking模型融合

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

李治

学位年度

2023

学位授予单位

华中农业大学

语种

中文

中图分类号

段落导航