首页|不同年龄段心血管疾病死亡风险分层分析

不同年龄段心血管疾病死亡风险分层分析

季京京

不同年龄段心血管疾病死亡风险分层分析

季京京1
扫码查看

作者信息

  • 1. 北京工业大学
  • 折叠

摘要

现如今,国民生活方式发生了很大的变化。但与此同时,人口老龄化也在不断加速,这就使得心血管病的发病率不断上升。因此,如果能通过数据挖掘和数据建模,找到可以预测心血管疾病患者死亡风险的关键特征,建立高效预测模型,这将为医疗诊断以及后续治疗的方法的选择上提供依据。 数据源自UCI ML Repository信息数据库,经数据清洗后,共计299例数据作为样本数据进入后续研究。数据包括性别、年龄、是否吸烟、是否患糖尿病、是否患高血压等11个特征因素,其中在观察期内患者生存与死亡的两种状态作为响应变量。研究的目的有两个:(1)确定不同年龄阶段的重要因素,(2)确定不同年龄阶段的最佳的预测模型。 第二章对于心血管疾病数据进行数据来源说明、描述性分析和变量检验,发现不同年龄段心血管疾病患者的死亡风险不同,并且说明了构建三折交叉验证样本的方法。第三章使用决策树和bagging两种方法确定不同年龄阶段心血管疾病患者的重要性特征,采用三折交叉验证方法对训练集构建数据模型,再用该模型对测试集数据进行预测,比较决策树和bagging两种方法的预测效果。第四章采用logistic回归方法建立模型,确定重要特征,再应用所建立的模型进行测试集预测,得出该模型精度。第五章采用线性判别的方式对前所得到的分析结果进行检验。第六章通过比较了上述多个模型,确立了对于不同年龄阶段心血管疾病患者预测死亡风险重要的特征,并且通过比较上述模型的测试集的预测精度得出了最佳预测模型,为医学诊断方面提供参考意见。 本文得到的分析结果如下:对于40-49岁的患者,需要重点关注射血分数,并且选择logistic回归模型进行预测准确率最高;对于50-59岁的患者,需要重点关注射血分数、血清肌酐、血小板数量这三个变量,并且选择Fisher线性判别进行预测准确率最高;对于60-79岁的患者,需要重点关注射血分数和血清肌酐这两个变量,选择logistic回归模型进行预测准确率最高;而对于79岁以上的患者,一旦心血管疾病病发,患者将处于高危状态。

关键词

心血管疾病/死亡风险/预测模型/决策树/Bagging法/logistic回归

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

吴密霞

学位年度

2021

学位授予单位

北京工业大学

语种

中文

中图分类号

R5
段落导航相关论文