摘要
药物发现过程从新药设计到上市后的临床监测包括数个阶段,周期长、代价大且可能在各个阶段以失败告终。人工智能可为该过程的诸多环节降本增效,进而提高结果质量。分子性质预测作为药物发现早期的基本任务之一,旨在尽早剔除性质与预期不符的分子,只允许最有价值的分子进入后续环节。药物被批准上市后,临床用药时不仅需要考虑药物自身的性质,还需考量药物间相互作用的对药物有效性和安全性的影响。由于药物分子自身结构以及药物之间的互作用关系天然地可以表示为图,图神经网络的兴起为药物发现领域带来了新机遇,但其在该领域的应用也面临挑战。本文基于图神经网络对药物发现领域的分子性质预测和药物互作用预测两个任务进行研究,主要贡献如下: (1)研究标签数据短缺和活性悬崖现象下的分子性质预测任务。在早期的化合物筛选中,分子标签获取代价高昂,带标签的数据稀缺。活性悬崖指一组结构相近的分子在某性质上差异巨大的现象。处理活性悬崖问题是提升分子性质预测模型精度的关键。针对标签数据短缺和活性悬崖的挑战,设计了GXFP算法来提升图神经网络模型在该任务上的表现。GXFP首先利用分子的描述符对分子进行聚类得到伪标签,再利用标签和伪标签构造样本三元组。每个三元组含一对构成活性悬崖的样本和一对需被找出共性的样本。GXFP在模型训练的优化目标上稍作调整,使得模型对这些样本的表征得到优化,从而让基于表征学习的方法在该任务上获得性能提升。真实的小型数据集上的测试结果证实,GXFP在不引入高昂代价的同时能有效改善基于图神经网络的模型在该任务上的精度。 (2)研究面向化学药和生物药的药物互作用预测任务。药物相互作用识别对临床治疗和药物重定位至关重要。针对药物互作用预测的计算方法未考虑生物药且生物药本身建模困难的问题,提出了一种双视角异构图数据库的构建方法以及相应的基于图学习的多类型药物互作用事件预测模型CB-TIP,将生物药首次纳入药物互作用预测的范畴。该构图方法构建双视角异构图以综合利用药物的化学结构特性和已知的药物互作用,并基于药物通过与内源蛋白质结合而发挥作用的事实,引入内源蛋白质以丰富图的双视角信息。CB-TIP采用图神经网络方法为异构的两类药物提取双视角融合的稠密向量表示,用以预测某药物与另一药物结合发生特定事件的可能性。真实数据上的实验以及案例分析表明,所提出方案在该任务上性能优异、预测结果有意义。