基于多组学数据的肿瘤药物敏感性预测

Predicting tumor drug sensitivity with multi-omics data

杨晨雨 ¹刘振浩 ²代培斌 ³张钰 ¹黄鹏杰 ¹林勇 ⁴谢鹭⁵

扫码查看

作者信息

1. 上海理工大学健康科学与工程学院,上海200093;上海市生物医药技术研究院基因组与生物信息研究所,上海201203
2. 上海市生物医药技术研究院基因组与生物信息研究所,上海201203;中南大学湘雅医院,湖南长沙410008
3. 同济大学医学院,上海200092
4. 上海理工大学健康科学与工程学院,上海200093
5. 上海市生物医药技术研究院基因组与生物信息研究所,上海201203
折叠

摘要

肿瘤药物敏感性预测在指导患者临床用药方面具有重要意义.本文基于癌症药物敏感性基因组学数据库(genomics of drug sensitivity in cancer,GDSC)198种药物的细胞系敏感性IC50数据,通过Stacking集成学习构建了包含基因表达、基因突变、拷贝数变异数据的多组学癌症药物敏感性预测模型.采用多种特征选择方法对基因特征进行降维,使用Stacking方法集成6种初级学习器和1种次级学习器进行建模,采用5折交叉进行模型验证.预测结果中AUC大于0.9的占比为36.4％,在0.8-0.9之间的占比为49.0％,最低AUC为0.682.基于Stacking构建的多组学预测模型较已有单组学和多组学模型的准确性和稳定性具有优势.多组学整合预测药物敏感性优于单一组学.特征基因功能注释和富集分析解析了肿瘤对sorafenib潜在的耐药机制,从生物学角度提供了模型可解释性及其应用于临床用药指导的价值.

关键词

集成学习/Stacking/特征选择/多组学/肿瘤耐药机制/sorafenib

引用本文复制引用

基金项目

国家自然科学基金(31301092)

国家自然科学基金(31800700)

上海市卫健委协同创新集群项目(2019CXJQ02)

出版年

2022

生物工程学报

中国科学院微生物研究所中国微生物学会

生物工程学报

CSTPCDCSCD北大核心

影响因子：0.641

ISSN：1000-3061

被引量2

参考文献量1

段落导航