摘要
肿瘤药物敏感性预测在指导患者临床用药方面具有重要意义.本文基于癌症药物敏感性基因组学数据库(genomics of drug sensitivity in cancer,GDSC)198种药物的细胞系敏感性IC50数据,通过Stacking集成学习构建了包含基因表达、基因突变、拷贝数变异数据的多组学癌症药物敏感性预测模型.采用多种特征选择方法对基因特征进行降维,使用Stacking方法集成6种初级学习器和1种次级学习器进行建模,采用5折交叉进行模型验证.预测结果中AUC大于0.9的占比为36.4%,在0.8-0.9之间的占比为49.0%,最低AUC为0.682.基于Stacking构建的多组学预测模型较已有单组学和多组学模型的准确性和稳定性具有优势.多组学整合预测药物敏感性优于单一组学.特征基因功能注释和富集分析解析了肿瘤对sorafenib潜在的耐药机制,从生物学角度提供了模型可解释性及其应用于临床用药指导的价值.
基金项目
国家自然科学基金(31301092)
国家自然科学基金(31800700)
上海市卫健委协同创新集群项目(2019CXJQ02)