首页|基于Stacking融合模型的高血压风险预测研究

基于Stacking融合模型的高血压风险预测研究

刘洋

基于Stacking融合模型的高血压风险预测研究

刘洋1
扫码查看

作者信息

  • 1. 华中农业大学
  • 折叠

摘要

人口老龄化进程不断加快、人们不健康的生活作息方式、快节奏社会所带来的压力等挑战,越来越多的人出现了健康问题,慢性病已经成了我国主要的疾病之一,特别是高血压疾病。尽管已经有很多研究探讨了高血压的防治,但高血压的影响因素分析仍然是一个严峻的挑战。近年来,随着医疗信息技术和数字化管理系统的不断发展,越来越多的机器学习技术应用于高血压影响因素分析,以识别潜在的危险因素,预测发病可能,这些方法的使用对于更好地了解高血压的潜在机制,对机器学习在高血压领域的应用有一定意义。 首先基于某医院体检数据进行数据探索,发现不同人群之间高血压患病情况存在差异,按照年龄和性别划分为青年、中年、男性和女性四个人群,然后对数据集进行无关变量处理、缺失值删除和填充、异常值判断、数据编码等预处理,同时对数据进行描述性统计分析。 其次运用Lasso、XGBoost、随机森林和SVM-RFE四种特征选择方法对特征进行筛选,选出最优子集。针对数据不平衡问题,采用SMOTEENN综合采样方法进行处理,再结合随机森林、SVM、神经网络和XGBoost四种算法模型进行预测,用AUC、准确率和F1值来比较不同模型的优劣,结果表明,青年、中年、男性和女性四个人群各自的最优模型分别为随机森林&SVM、XBGoost&XGBoost、XBGoost&XGBoost、XBGoost&XGBoost。 最后基于不同人群的最优模型的基础上,进行Stacking融合,第一层基学习器选取随机森林、XGBoost、SVM、神经网络,第二层元学习器选取Logistic回归。对比AUC、准确率和F1值三个指标,结果表明:Stacking融合模型针对不同人群并不一定能提升效果。青年和女性的最优模型均为Stacking融合模型,而中年和男性的最优模型均为XGBoost&XGBoost。并对四个人群最优模型的特征重要性分别进行排序,横向对比,对比了不同人群高血压患者之间的异同,应该多注意收缩压、嗜酸性细胞百分比、碱性磷酸酶、舒张压、尿素氮、体重、甘油三酯和空腹血糖这些指标,为以后高血压防治提供了一定的参考价值。

关键词

高血压/特征选择/不平衡数据/集成算法/Stacking模型融合

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

李治

学位年度

2023

学位授予单位

华中农业大学

语种

中文

中图分类号

R5
段落导航相关论文