首页|基于数据挖掘技术的2型糖尿病患病风险预测研究

基于数据挖掘技术的2型糖尿病患病风险预测研究

朱亚楠

基于数据挖掘技术的2型糖尿病患病风险预测研究

朱亚楠1
扫码查看

作者信息

  • 1. 燕山大学
  • 折叠

摘要

糖尿病已成为继心脑血管疾病、恶性肿瘤后的第三大威胁人类健康的慢性病。随着我国人民生活水平的普遍提高以及生活节奏的加快,糖尿病患病者数量正在以惊人的速度增长,且向低龄化发展。最新调查显示,我国成年糖尿病患者高达1.14亿,呈现高发病率状态,然而知晓率、治疗率和达标率偏低。没有得到及时治疗与控制的糖尿病患者可能有心脑血管以及糖尿病足等各种并发症,这不仅严重影响了糖尿病患者的生活质量,也为家庭和社会带来了沉重的负担。因此,预防和控制2型糖尿病的发生,对于节约医疗资源、降低我国医疗支出具有重要战略意义。 本研究基于数据挖掘分类技术和分类器评估等相关理论,首先到秦皇岛市属医院进行原始数据采集,并利用相关的数据预处理技术进行了数据的清洗;其次,针对单一分类器的局限性,本文综合比较多个分类器(包括决策树C5.0,人工神经网络和支持向量机)的优势和劣势,运用多个评估工具进行模型的预测性能评价和质量评价,通过比较获得适合2型糖尿病患病风险预测的最优参数下的最佳分类器;第三,针对模型的可操作性和实用性,本文运用决策树C5.0算法,分别在简单个人水平、简单临床和复杂临床数据集下建立患病风险预测模型,以实现不同情况下为2型糖尿病的预警和干预提供帮助;最后,由于医疗数据的复杂性和医疗临床决策中对分类精度和算法稳定性的高度要求,采用Weka和Eclipse软件建立集成分类器,增强模型的鲁棒性,最终建立一个稳定性良好、学习速度快、分类效果最佳的数据挖掘模型。模型的评估结果表明,在单一分类器中,决策树C5.0模型在复杂临床数据集下的预测准确率、灵敏度、特异度、约登指数以及ROC曲线下面积均是最高的,说明决策树C5.0模型在2型糖尿病患病风险预测中的应用是最适合的,这对糖尿病高危人群的预防和医生临床诊断起到一定的指导作用,具有参考价值。但是,由于经典算法的局限性,加入集成算法,发现在复杂临床数据集下,使用Bagging集成算法组合多个C4.5单分类器后的分类模型的稳定性好,学习速度快,泛化能力强,分类效果最佳。

关键词

2型糖尿病/风险预测/医学统计/数据挖掘

引用本文复制引用

授予学位

硕士

学科专业

管理科学与工程

导师

侯玉梅

学位年度

2017

学位授予单位

燕山大学

语种

中文

中图分类号

R5
段落导航相关论文