首页|基于胶囊网络和注意力模块的肽段可检测性预测

基于胶囊网络和注意力模块的肽段可检测性预测

段宇帅

基于胶囊网络和注意力模块的肽段可检测性预测

段宇帅1
扫码查看

作者信息

  • 1. 浙江理工大学
  • 折叠

摘要

在蛋白质组学技术中,因样品和实验过程自身的复杂性,以及质谱实验的重复性等问题,肽段鉴定和定量结果产生了很大的随机性。而质谱(MS)分析的进步,有助于在蛋白质组学水平上获得可靠结果。但由于仅凭现有技术还存在许多问题,如复杂的实验步骤会导致肽的可检测相对困难。因此通过机器学习方法提高肽的可检测性预测结果成为了重要的研究课题。本文针对此问题,构建了一种基于胶囊网络(CapsNet)和CBAM卷积注意力模块相结合的肽的可检测性预测模型,提高预测肽的可检测性的准确率。其中,主要工作内容如下: (1)特征选择和提取是提高肽的可检测性结果的关键。首先本文在肽链的特征提取中,结合氨基酸分类和理化性质,利用统计特征改进了一种数学编码的圆锥残基特征,增加肽链特征的表示方法。其次,因蛋白质的结构稳定性需要内部残基相互作用,故使用RECM-composition和PseRECM从残基对能量来提取序列重要信息。同时,利用氨基酸成分和二肽成分提取序列单个氨基酸和相邻氨基酸的信息。另外将序列编码成神经网络嵌入,代替单热编码,作为序列特征输入网络中。 (2)本文构建了一种新的深度神经网络结构模型(CapsNet+CBAM),用来预测肽的可检测性。将基于数学编码的圆锥残基特征、基于残基对能量的RECM-composition和PseRECM、氨基酸成分和二肽成分作为生物特征,肽链的神经网络嵌入作为序列特征。将生物特征和序列特征这两种特征分开再输入到网络模型中,减少特征之间互相影响。针对模型上的优化,增加CBAM注意力机制。它对卷积之后的特征图在空间和通道上增加权重,提高肽的可检测性预测的准确性。实验结果表明,本文肽的可检测性的预测结果明显优于现有的方法。 (3)为了来验证模型各个部分的重要性,设置有无CBAM模块对比实验,特征不同输入方式实验,不同特征输入对比实验,并对不同神经网络框架进行实验对比。再之后测试GPMDB数据库的测试集准确性,并与现有的一些方法进行比较,实验结果表明本文构建的模型结构最优,准确率达到0.8048。在额外基准测试上,对不同肽的可检测性进行预测,在高检测肽中实验结果优于最新方法1D-2C-CNN。此外,为探究本文模型对其他种类肽链预测的能力,设置预测肽链是否为抗血管生成肽和抗菌肽进行测试,验证了对其他肽预测也可达到很好的结果。 最后,本文对肽的可检测性预测的研究工作进行了总结,并对今后的工作进行展望。

关键词

蛋白质/肽段可检测性/胶囊网络/注意力模块

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

李重

学位年度

2021

学位授予单位

浙江理工大学

语种

中文

中图分类号

Q5
段落导航相关论文