摘要
蛋白质在溶液中的三维空间结构、动力学与蛋白质生物功能的关系是在分子水平上理解生命现象的重要基础。核磁共振技术(Nuclear Magnetic Resonance, NMR)能够对蛋白质的溶液结构和动力学性质进行研究,具有其他研究手段如X射线晶体衍射、电镜和质谱等所不具备的独特的优越性。 蛋白质行使其生物功能,不仅依赖于其三维结构,也依赖于其动态变化。核磁共振波谱利用Model-free模型中的序参数(order parameter)捕获皮秒至纳秒时间尺度的蛋白质快运动,表征蛋白质的局部柔性。了解序参数可以帮助我们更好地理解蛋白质的动态特性。另外,溶剂可及性反映了残基与溶剂分子相互作用的程度,由于蛋白质的活性位点通常位于其表面,因此溶剂可及性对于理解和预测蛋白质的结构和功能之间的关系非常重要。研究表明核磁共振化学位移与溶剂可及性有着密切的联系。通过实验方法获取蛋白质的序参数和溶剂可及性并不容易。近年来,人工智能技术发展很快,在生物信息学领域取得了很大的进展。本文结合核磁共振数据和人工智能技术对这两个与蛋白质发挥生物功能息息相关的属性参数进行预测。 本文主要工作如下: (1)基于核磁共振解析得到的蛋白质结构系综,提出残基距离方差和扭转角方差特征,并使用机器学习模型进行蛋白质主链 15N序参数的预测。以往的序参数预测方法大都依据单一的蛋白质结构并基于公式来表征特征与序参数的关系,没有充分利用蛋白质结构的动态变化。本文构建了蛋白质NMR结构系综与对应序参数的数据集,使用残基距离的方差和扭转角的方差表征结构的变化,再结合氨基酸残基对应的接触数目、二级结构和溶液可及表面积作为特征,借助随机森林方法来预测蛋白质的序参数,采用五折交叉验证的方式得到Pearson相关系数为0.832,MAE为0.081, RMSE为0.103,在一个独立测试集上的Pearson相关系数为0.825,MAE为0.080、RMSE为0.107,优于现有的算法。 (2)结合化学位移特征和序列特征进行蛋白质残基溶剂可及性的预测。相比于仅仅基于序列特征的方法,加入化学位移特征有助于溶剂可及性预测。本文构建了蛋白质化学位移与对应溶剂可及性的数据集,选取多序列比对特征、氨基酸的物理化学性质以及化学位移作为特征,并加入了化学位移预测得到的二级结构特征,基于BiLSTM和Transformer神经网络提出ShiftASA-LSTR模型实现对溶剂可及性的预测,在包含300个蛋白质的测试集上溶剂可及表面积预测值与实验值的Pearson相关系数为0.813,MAE为23.301?2,RMSE为30.490?2,Spearman相关系数为0.806,相对可及表面积预测值和实验值的Pearson相关系数为0.768,MAE为0.137,RMSE为0.178 , Spearman相关系数为0.758。ShiftASA-LSTR模型在测试集上的表现与Alphafold2预测结果相当。 最后,本文基于上述模型,搭建了一个使用Django框架开发,以及uWSGI和Nginx进行部署的Web服务平台,提供蛋白质二级结构、序参数和溶剂可及性的预测,方便核磁工作者更好的研究蛋白质的结构和功能。