基于集成学习的融合模型在血糖值预测中的应用研究

汪涛¹

扫码查看

作者信息

1. 兰州理工大学
折叠

摘要

随着社会压力不断增大，人们的作息时间变得越来越不规律，许多人的饮食习惯非常不健康，这导致糖尿病未确诊患者数量与日俱增，给人们的身体健康带来了巨大隐患。以目前的医疗条件无法根治糖尿病，只有尽早发现和积极预防才能减缓糖尿病所带来的危害，但想要成批量得知体检人员的血糖值需要耗费大量人力物力。如果可以合理运用机器学习的集成学习方法来构建血糖值预测模型，对血糖值进行精准预测，医护人员就可以对血糖值高于正常水平的人员进行预警或治疗，从而减少人们患糖尿病的风险，同时也能够节省一大笔医疗开销。基于生理模型的血糖值预测研究中，容易受到个体差异和外界因素的影响。随着机器学习的快速发展，基于数据驱动的血糖值预测方法凸显出准确度高的优势。本文以机器学习中的集成学习模型为基础，利用LightGBM模型、XGBoost模型、CatBoost模型、GBDT模型、线性回归模型以及Stacking模型融合的思想，结合机器学习的相关理论知识，对模型做出相应的改进和优化，构建血糖值预测的新模型，最后对预测结果进行对比分析。本文主要的研究工作如下：（1）对数据集进行预处理。由于数据集的维度较高，并且数据集中存在较多异常数据，因此在构建模型之前对数据集进行预处理十分关键。本文首先对数据集中的异常值、缺失值进行处理，对数据集进行One-Hot编码，然后对特征进行权重分析，最后将数据集划分为训练集和测试集。（2）构建参数优化后的LightGBM模型。提出经三种参数优化算法优化后的LightGBM模型，即HY-LightGBM模型（经贝叶斯超参数优化算法优化）、GA-LightGBM模型（经遗传算法优化）、RS-LightGBM模型（经随机搜索算法优化）对血糖值进行预测，最后根据均方误差（MSE）等评价指标对预测结果进行评估。实验结果表明在没有经过参数优化的情况下，LightGBM模型与XGBoost模型、CatBoost模型、GBDT模型、线性回归模型相比有着明显的优势，经参数优化后的HY-LightGBM模型预测精度优于经其他参数优化算法优化后的LightGBM模型和其他回归预测模型。（3）构建基于Stacking模型融合思想的血糖值预测模型。将经过参数优化后的HY-LightGBM模型、RS-XGBoost模型、RS-CatBoost模型作为融合模型第一层的基学习器，将GBDT模型、线性回归模型作为融合模型第二层的元学习器，组成融合模型，以提高预测精度。实验结果表明，基于Stacking构建的融合模型进一步提高了血糖值的预测精度，具有较好的拟合能力。

关键词

血糖值预测/LightGBM/参数优化/Stacking模型/集成学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

王燕

学位年度

2021

学位授予单位

兰州理工大学

语种

中文

中图分类号

段落导航