中国全科医学2022,Vol.25Issue(2) :217-226.DOI:10.12114/j.issn.1007-9572.2021.01.313

使用机器学习建立慢性阻塞性肺疾病患者重度气流受限风险预警模型研究

Using Machine Learning to Build an Early Warning Model for the Risk of Severe Airflow Limitation in Patients with Chronic Obstructive Pulmonary Disease

周丽娟 温贤秀 吕琴 蒋蓉 吴行伟 周黄源 向超
中国全科医学2022,Vol.25Issue(2) :217-226.DOI:10.12114/j.issn.1007-9572.2021.01.313

使用机器学习建立慢性阻塞性肺疾病患者重度气流受限风险预警模型研究

Using Machine Learning to Build an Early Warning Model for the Risk of Severe Airflow Limitation in Patients with Chronic Obstructive Pulmonary Disease

周丽娟 1温贤秀 2吕琴 3蒋蓉 2吴行伟 4周黄源 5向超3
扫码查看

作者信息

  • 1. 610072 四川省成都市,电子科技大学附属医院·四川省人民医院呼吸与危重症医学科;610072 四川省成都市,电子科技大学医学院
  • 2. 610072 四川省成都市,电子科技大学附属医院·四川省人民医院护理部
  • 3. 610072 四川省成都市,电子科技大学附属医院·四川省人民医院呼吸与危重症医学科
  • 4. 610072 四川省成都市,电子科技大学附属医院·四川省人民医院药学部;610072 四川省成都市,电子科技大学医学院,个体化药物治疗四川省重点实验室
  • 5. 610072 四川省成都市,电子科技大学医学院
  • 折叠

摘要

背景 气流受限程度是评价慢性阻塞性肺疾病(COPD)患者疾病进展的关键指标.然而由于检查禁忌、依从性等问题,导致部分患者难以开展相关检查,无法评价疾病严重程度.目的 建立并评估基于机器学习算法的COPD患者重度气流受限风险预警模型.方法 采用横断面设计调查2019年1月至2020年6月四川省某三甲医院的COPD住院患者,收集患者一般临床指标与肺功能检查数据.将数据按8:2比例随机分为训练集和测试集,在训练集中使用4种缺失值填充方法、3种特征筛选方法、17种机器学习和1种集成学习算法构建216种风险预警模型.采用ROC曲线下面积(AUC)、准确率、精确率、召回率和F1值评价模型的预测性能,分别使用十折交叉验证法和Bootstrapping算法进行内部验证和外部验证.使用测试集数据进行模型测试和选择.使用后验法进行样本量验证.结果 共纳入418例患者,其中212例(50.7%)患者存在重度以上气流受限风险.经4种缺失值处理和3种特征筛选后,共获得12个处理后的数据集及12种影响气流受限因素的重要性排序,结果显示,呼吸困难指数评分(mMRC)等级、年龄、体质指数(BMI)、吸烟史(有、无)、慢性阻塞性肺疾病评估表(CAT)评分、呼吸困难(有、无)在变量特征排序中居于前列,是构造模型的关键指标,对结果预测有重要作用.其中,采取不填充、Lasso筛选方法后,mMRC等级、吸烟史(有、无)、呼吸困难(有、无)为位居前3位的预测因子,mMRC等级占特征重要性的54.15%.使用不填充、Boruta筛选方法后,CAT评分、年龄、mMRC等级为位居前3位的预测因子,CAT评分占特征重要性的26.64%.使用17种机器学习和1个集成学习算法对12个数据集分别建模,共得216个预测模型.17种机器学习算法十折交叉验证结果显示,不同算法预测性能比较,差异有统计学意义(P<0.05),随机梯度下降算法的平均AUC最大,为(0.738±0.089).使用Bootstrapping算法对测试集进行外部验证结果显示,不同算法所得模型的预测性能比较,差异有统计学意义(P<0.05),集成学习算法的平均AUC最大,为(0.757±0.057).利用Bootstrapping算法对4种缺失值处理和3种特征筛选预测性能评价结果显示,当不填充和Lasso筛选时,可提高模型的性能,差异有统计学意义(P<0.05).使用测试集数据对216个机器学习模型进行测试,最佳模型的AUC为0.7909,准确率为75.90%,精确率为75.00%,召回率为78.57%,F1值为0.7674.样本量验证结果提示研究样本量可满足建模需求.结论 本研究建立并评价了COPD患者重度气流受限风险预警模型,mMRC等级、年龄、BMI、CAT评分、是否有吸烟史和呼吸困难是影响气流受限的关键指标.该模型预测效果良好,具有潜在的临床应用前景.

关键词

肺疾病,慢性阻塞性/机器学习/气流受限程度/肺功能/呼吸功能试验/预测模型

引用本文复制引用

基金项目

国家自然科学基金(72004020)

干部保健科研课题川干研(2021-219)

出版年

2022
中国全科医学
中国医院协会

中国全科医学

CSTPCD北大核心
影响因子:2.04
ISSN:1007-9572
被引量2
参考文献量3
段落导航相关论文