摘要
近年来人工智能技术的发展深刻地变革了图像识别、自然语言处理和药物发现等领域的研究范式。人工智能方法被广泛地应用于药物发现领域中,如分子性质预测、药物靶标的发现、先导化合物发现、分子生成、蛋白质结构预测和蛋白质设计等,其中预测化合物-蛋白质相互作用在先导化合物发现中起着十分重要的作用。目前基于结构的虚拟筛选、基于配体的虚拟筛选和基于转录谱的虚拟筛选都在药物设计中取得了成功,但是越来越多的应用场景下常规的虚拟筛选方法不能满足制药工业的需求,例如当蛋白质的晶体结构未被解析、靶点的已知活性小分子的数量太少和缺少转录谱数据时。受到蛋白质结构预测的成功的鼓舞,使用蛋白质序列去直接预测化合物-蛋白质的相互作用将会是一个有前景的方向。 以此为背景,本文围绕基于蛋白质序列的化合物-蛋白质相互作用为主题展开研究。在本文的第1章中,我们综述了人工智能在药物设计中的应用,并回顾了语言模型的发展,最后讨论了不同类型的化合物-蛋白质相互作用预测方法的优缺点。在第2章中,我们开展了基于蛋白质序列的化合物-蛋白质相互作用模型的方法学研究。在第3章,我们提出了基于蛋白质序列的药物设计策略,并系统性地进行了概念验证。 基于蛋白质序列的化合物-蛋白质相互作用预测模型存在3个问题,包括使用不合适的数据集、隐藏的配体偏差和不合理的数据集分割。为了解决上述提到的问题,在本文的第2章中,我们构建了新的G蛋白偶联受体数据集和激酶数据集,并提出了标签反转实验,来检验模型是学习到了化合物-蛋白质相互作用的特征而不是其他的无关特征,并评估隐藏的配体偏差对于模型预测的影响。我们融合词嵌入模型Word2vec、图卷积神经网络和Transformer架构,建立了基于蛋白质序列的预测模型TransformerCPI。TransformerCPI在基准数据集和标签反转数据集上都取得了最优的性能,说明模型学习到了化合物-蛋白质相互作用的知识。最后,我们通过注意力机制对TransformerCPI模型的可解释性进行了探索,蛋白质序列上的注意力分数可以大致定位结合口袋,而配体原子上的注意力分数和构效关系相关。通过第2章的工作,我们发现了基于蛋白质序列的化合物-蛋白质相互作用预测模型存在的问题,从方法学上给出了解决方法,并在测试集上取得了最优的效果。 在第2章工作的基础上,我们从单一的方法学研究转变为计算与实验结合的概念验证。在第3章中,我们提出基于蛋白质序列的药物设计策略,并从3个层面系统地验证了这个概念。首先,我们开发了第2代模型TransformerCPI2.0,TransformerCPI2.0在标签反转数据集、外部测试集和按照时间划分的ChEMBL27测试集都取得了最优异的性能,说明模型学习到了化合物-蛋白质相互作用的知识,并且能够泛化到新的蛋白质空间和化合物空间中。进一步,TransformerCPI2.0在虚拟筛选的任务上取得了与分子对接工具相近的富集性能,证明了基于蛋白质序列的药物设计策略的可行性。其次,对于TransformerCPI2.0的可解释性,我们提出了耐药性突变分析和三氟甲基取代效应分析,可以作为解释性工具预测结合口袋的位置和关键氨基酸残基进而指导分子结构的优化。最后,针对困难靶标斑点型POZ蛋白,我们成功地筛选出了4个全新骨架的苗头化合物,经过分子、细胞和动物水平的实验验证,其中230D7显示出治疗肾透明质细胞癌的潜力。针对没有晶体结构的环指蛋白130,我们成功地筛选出了第一个小分子结合剂iRNF130-63,证明了该策略可以真正地为没有晶体结构的靶点进行药物设计。此外,反向应用序列到药物的策略,我们发现了老药雷贝拉唑的新靶点ADP-核糖基化因子1,通过分子、细胞核动物水平的实验验证,证明了雷贝拉唑和靶点的共价结合、调节脂质代谢和诱导抗肿瘤免疫反应的机制和抗肿瘤疗效,成功地将雷贝拉唑的适应症拓展到结肠癌治疗。 总体而言,本论文开发了基于蛋白质序列的化合物-蛋白质相互作用预测模型TransformerCPI和TransformerCPI2.0,检验了模型的泛化性能和可解释性。进一步,本论文在实际的药物设计场景中验证了基于蛋白质序列进行药物设计的可行性。针对斑点型POZ蛋白和环指蛋白130发现了全新的小分子抑制剂,针对老药质子泵抑制剂发现了新靶点ARF1,展示了基于蛋白质序列药物设计策略的巨大潜力和未来前景。