摘要
目的:恶性肿瘤在全球范围内已经给人类社会和患者家庭带来严重的疾病负担。其中,肺癌是我国各地区最常见的恶性肿瘤死亡原因。然而,目前的抗肿瘤药物治疗存在一些问题,需要评价抗肿瘤药物在临床治疗实践中的治疗效果,相关的指南和指导原则推荐使用真实世界数据。由于目前真实世界研究的常用统计学分析方法不够完善,因此本研究以肺癌为例,通过描述性分析、回归模型与机器学习预测模型,探索基于真实世界数据的抗肿瘤药物的临床有效性评价方法。 方法:本研究收集了四川省人民医院的2014年7月至2018年9月肺癌住院治疗患者医疗数据。通过数据收集、集成、转换、变量的整理和选择、缺失值填充等步骤后,获得可用于后续分析的数据集,包括不区分商品名队列和区分商品名队列。分别对两个队列进行单因素Kaplan-Meier分析、Cox比例风险回归模型、抗肿瘤药物亚组差异性比较、单因素分析、Logistic回归模型以及机器学习预测模型。最后,讨论和评价经过变量筛选后数据分析的结果以及模型性能。 结果:通过变量选择后,共有1038例目标病例数据,其中不区分商品名队列共计53个变量、区分商品名队列共计59个变量。通过绘制Cox比例风险回归模型列线图可以预测肺癌患者的1年、2年、3年生存率;通过Logistic回归模型绘制的列线图可以预测肺癌患者的2年死亡风险;通过亚组差异性比较可以获得不同抗肿瘤药物在真实世界肺癌患者中的优势人群。通过影响因素分析得到肺癌患者治疗效果相关的可能的潜在影响因素。机器学习预测模型可用于预测肺癌患者的两年生存情况,评价抗肿瘤药物临床有效性。在测试集中,无筛选的集成学习算法模型、基于Boruta的集成学习算法模型、基于Boruta的Bagging算法模型在抗肺癌药物临床有效性预测中的性能排名前三(AUCgt;0.615),其中无筛选的集成学习算法模型表现最佳(AUC=0.6524)。 结论:本研究建立了生存分析与机器学习预测模型相结合的方法学体系。可获得影响药物治疗效果的关键影响因素,得到不同抗肿瘤药物在真实世界应用中的优势人群,并预测抗肿瘤药物的治疗效果,有利于临床用药决策的制定。