首页|基于机器学习的抗乳腺癌药物ADMET性质预测与优化研究

基于机器学习的抗乳腺癌药物ADMET性质预测与优化研究

高秀秀

基于机器学习的抗乳腺癌药物ADMET性质预测与优化研究

高秀秀1
扫码查看

作者信息

  • 1. 西安工业大学
  • 折叠

摘要

乳腺癌是世界上最常见,致死率较高的癌症之一,寻找有效抵抗乳腺癌药物尤为重要。药物的ADMET性质(即药代动力学性质和安全性)是影响药物研发成败的一个最主要因素。传统探究药物ADMET性质方法通常伴随着周期长和耗资高等问题,但随着人工智能的快速发展,机器学习方法开始在预测药物ADMET性质预测方面展现出巨大的潜力,有效解决了传统方法的一些弊端。因此,本文重点研究抗乳腺癌药物分子描述符的特征选取和ADMET性质预测与优化问题,主要的研究内容如下所述: 1)针对分子描述符特征筛选问题,构建了基于新的特征选择方法。包括一级、二级、三级组合筛选,一级筛选采用互信息和卡方检验来共同筛选;二级筛选采用随机森林、梯度提升决策树和极限梯度提升三种机器学习算法共同筛选;三级筛选采用Spearman相关性和递归特征消除法来共同做进一步的筛选。通过新的特征筛选方法显著降低特征数量,进一步提高模型的泛化能力。相较于传统单一筛选方法,该方法可以避免忽略特征之间的相互关系和组合效应、信息丢失等问题。 2)针对抗乳腺癌药物ADMET性质预测问题。为验证新的特征筛选方法的高效性,基于上述筛选后的分子描述符特征,考虑抗乳腺癌药物ADMET五个性质数据集,针对1975个化合物,采用贝叶斯算法对预测模型的超参数进行优化,选取准确率(Accuracy)、精准率(Precision)、召回率(Recall)以及调和平均(F1)作为评价指标,对抗乳腺癌药物ADMET性质进行预测。并与三种单一特征筛选的六种机器学习模型(随机森林、梯度提升决策树、K最近邻、支持向量机、逻辑回归、高斯朴素贝叶斯)和四种深度学习模型(神经网络、卷积神经网络、深度神经网络、长短期记忆网络)做对比分析。 结果表明:基于本文构建的特征筛选的机器学习模型预测效果更加优异。基于新的特征筛选后的随机森林、K最近邻、卷积神经网络和长短期记忆网络这四种模型预测精度较高,特别是随机森林预测模型在独立测试集上的表现最佳,该模型各项评价指标数值结果在五个数据集上指标最高的次数达到的最多。综上,本文构建的特征选择方法不仅实现了抗乳腺癌药物ADMET性质高精度的预测,同时简化了算法实现难度,进一步增强了模型的稳定性和可解释性。

关键词

抗乳腺癌药物/药代动力学/安全性/特征筛选/机器学习

引用本文复制引用

授予学位

硕士

学科专业

数学

导师

张襄松

学位年度

2024

学位授予单位

西安工业大学

语种

中文

中图分类号

R9
段落导航相关论文