首页|基于图卷积神经网络的蛋白质与RNA结合位点图预测

基于图卷积神经网络的蛋白质与RNA结合位点图预测

杨贺文

基于图卷积神经网络的蛋白质与RNA结合位点图预测

杨贺文1
扫码查看

作者信息

  • 1. 吉林大学
  • 折叠

摘要

蛋白质与RNA之间的相互作用是许多细胞调节和基因表达过程的基础,同时,许多研究也已证明几乎所有的蛋白质都需要和RNA产生相互作用才能充分发挥其功能。通过分析蛋白质与RNA的相互作用方式,我们不仅能够加深对蛋白质的理解,同时还能将有效的方法加以推广,去研究更多的生物过程。 目前,生物学实验和基于生物信息学的计算方法是用来预测相互作用的主要手段。生物学实验主要通过核磁共振、X射线衍射等方法来识别相互作用中的结合位点。这些方法的准确率虽然较高,但是需要耗费巨大的时间成本和实验成本,并不适用于大规模的研究。相比之下,计算方法可以通过分析不同位点间的结合模式来对相互作用做出预测。目前的计算方法主要分为序列水平的预测和单序列小片段的预测,无法对具体的氨基酸-核苷酸结合对进行预测。基于此,本文提出了以下工作: (1)鉴于目前的数据集无法满足我们的研究需要,本文使用爬虫技术构建了新的数据集。通过爬取PDB数据库上的数据,收集到了2706个蛋白质-RNA大分子复合物的结构信息。经过后续的数据处理流程,共有439个有效的蛋白质-RNA结合对用于正负样本的提取及模型的训练。 (2)对于RNA序列,本文采用新的方法生成了基于3-mer短序列的词向量特征。该特征不仅包含了序列的上下文信息,还挖掘出了隐藏在序列中的依赖关系。 (3)提出了基于图卷积神经网络的预测模型。对于给定的蛋白质与RNA序列,该模型可以预测出两条序列上的氨基酸-核苷酸结合对,并可基于此构建出对应的结合位点图。 通过十折交叉验证的训练后,我们的模型在独立测试集上的查准率、查全率和F1-score分别为0.814、0.772和0.805。在将GCN网络更换为GAT网络后,模型的查准率、查全率和F1-score可以达到0.827、0.798和0.813。 实验证明,本文提出的模型不仅可以对结合位点做出有效的预测,还为接下来的研究提供了新的方向和思路。

关键词

蛋白质-RNA结合位点/图卷积神经网络/结合位点图预测/爬虫技术

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

刘元宁

学位年度

2021

学位授予单位

吉林大学

语种

中文

中图分类号

TP
段落导航相关论文