基于深度学习的蛋白质磷酸化位点预测

王泽宇¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

蛋白质是组成生命的主要生物大分子之一，也是生命活动的主要承担者。蛋白质翻译后修饰是发生在蛋白质翻译后的共价加工过程。其中，磷酸化是最为常见的一种，是生命科学中一项重要的研究内容。磷酸化位点的确定对于指导细胞功能研究、疾病治疗以及药物开发有着重要意义。目前，蛋白质磷酸化位点的确定主要分为两大类，即生物实验测定和计算手段预测。生物实验一般是突变、质谱等。但是实验技术在人工和时间成本上非常昂贵。计算方法能够降低实验成本、提高预测速度。不过基于简单共识模式的识别方法、基于序列相似性的聚类方法比较依赖已有数据的形式且效果不佳。相比之下，机器学习方法融合了多种特征，效果更优。不过，传统机器学习方法需要从原始序列中提取特征，这一过程要经过人工设计，会存在一定的局限性，可能会导致特征具有偏向性。深度学习模型具有较强的特征表示能力，所以近年来提出的磷酸化位点预测模型大多基于此。这些方法都将蛋白质以氨基酸一维序列的形式进行处理，然而，蛋白质结构实际上是一种复杂的非欧式结构，一维序列形式难以准确表示蛋白质的相关信息。而图神经网络（GNN）是一种直接作用于图结构的新型深度学习方法，将其应用于蛋白质磷酸化位点预测方法具备良好的潜力。基于上述问题，本文提出了一个基于图神经网络的蛋白质一般性磷酸化位点预测模型，GraphPhos。在本模型中将图神经网络应用于磷酸化位点预测领域，综合传统机器学习方法的优势，人工提取序列特征，包括独热编码、氨基酸理化性质、位置特异性评分矩阵和二级结构信息，在提高模型预测能力的同时增强可解释性。再联合由蛋白质三级结构计算出的氨基酸二级结构接触图，实现蛋白质序列特征和结构特征的结合。另外，预训练蛋白质语言模型自动抽取的蛋白质氨基酸特征，经由卷积神经网络结构进一步提取后，能够更好地捕捉适合于磷酸化位点预测的信息。而且，由于输入为整个蛋白质序列及其接触图，达到了在整条蛋白质长程上对关注的氨基酸位点进行预测的目标。在实验中，选择UniProt数据库中有磷酸化注释的蛋白质数据集对模型进行训练、验证和预测。实验结果表明，本实验提出的模型对整条蛋白质上的一般性磷酸化位点预测取得了优异的结果。与已有方法相比，本方法针对丝氨酸、苏氨酸、酪氨酸位点预测的准确率至少分别提高了8%、15%和12%。另外，本文中的多组消融实验也证明了实验中采用的特征及深度神经网络结构是有意义的。总体而言，本文提出的基于图神经网络的蛋白质通用性磷酸化位点预测模型非常有效，相对于各个类别氨基酸的预测模型，在准确率上平均提高7%。该模型也对其他类型翻译后修饰位点的预测提供一定程度的参考价值，有利于相关疾病治疗和药物研发。

关键词

蛋白质/磷酸化位点预测/图神经网络/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

时小虎

学位年度

2024

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航