摘要
小分子药物与靶点结合是其发挥作用的必要条件,基于结构药物设计的重要任务是找到能与靶点结合的分子。传统的基于结构的计算机辅助药物设计方法主要依赖对接-打分函数的虚拟筛选,这些方法存在算力消耗大、预测性能不佳等缺点。近年来深度学习技术在生物和化学等自然科学领域研究取得较大进展,以AlphaFold2为代表的深度学习模型在蛋白三维结构预测任务上取得突破。在计算机辅助药物设计领域,最新的深度学习模型在ADMET等分子性质预测任务上的性能已经超过传统定量构效关系方法。蛋白-小分子结合亲和力大小受复杂多因素影响,传统基于经验、知识或力场的打分函数难以兼顾各种复杂非线性因素。深度学习模型可以提供强大的表示学习能力,能对输入与输出间复杂的非线性关系进行建模。组成蛋白质的氨基酸序列多样性和复杂的三维结构使其更难以进行特征工程与表示学习,有效的表示学习方法是进行下游任务的基础。本文针对蛋白-小分子亲和力预测任务,深入研究一维氨基酸、三维点云和三维原子图三种蛋白数据结构的表示学习方法。 针对蛋白一维氨基酸序列,本文利用自然语言处理中的序列自监督预训练方法BERT对一维氨基酸序列进行表示学习。自监督预训练可以在无标注的大量蛋白序列数据中学习数据本身固有特征和分布,从预训练模型中提取的抽象特征可用于对下游任务进行迀移。对于配体小分子,我们使用基于成对半图判别的分子图自监督预训练模型M o l G N e t提取分子特征。最后将两种特征通过Transformer进行融合并进行亲和力预测。我们对该模型的虚拟筛选性能进行测试,结果表明基于自监督预训练模型提取的一维氨基酸序列特征相较无预训练模型取得更佳的预测和筛选性能。 针对三维结构表示,本文首先从三维结构中采样得到蛋白表面点云。利用针对点云数据设计的表示学习方法PointNet和 PointNet++对三维蛋白点云进行表示学习。我们使用了基于消息传递图神经网络TrimNet提取分子特征。使用Transformer融合蛋白点云特征和分子图特征并进行预测。实验表明PointNet和PointNet++能对蛋白表面点云数据进行有效地表示学习。消融实验证明了点云数据中的坐标信息显著形象模型预测性能,说明模型能从坐标中学习与蛋白-分子亲和力相关的蛋白三维几何信息。 由于蛋白表面点云采样和采样点上的物理化学性质计算等特征工程可能带来的原始输入信息损失,最后的工作中我们将原子为节点的三维图作为输入,使用基于群等变原理构建的等变图神经网络对蛋白口袋中原子节点的特征进行表示学习。使用TrimNet对分子图中原子节点特征进行表示学习。本工作中我们首次提出使用原子对间相互作用和知识蒸馏启发的成对相互作用监督对模型进行训练。基于上述方法我们在亲和力预测和虚拟筛选任务中相较已有的模型更优的性能。此外我们还在消融实验和可视化分析中证明上述方法的有效性。 综上所述,本工作研究了三种蛋白输入及其相应的表示学习方法在蛋白-分子亲和力预测任务中的应用,在亲和力预测和虚拟筛选等任务中实现了较同类型方法更优的预测精度。本工作为基于深度学习的蛋白-分子亲和力预测方法提供新的解决方案,为基于结构的虚拟筛选方法提供更有效的深度学习工具。