首页|基于ResC-LSTM的蛋白质亚细胞定位研究

基于ResC-LSTM的蛋白质亚细胞定位研究

武豪放

基于ResC-LSTM的蛋白质亚细胞定位研究

武豪放1
扫码查看

作者信息

  • 1. 浙江理工大学
  • 折叠

摘要

蛋白质是构成机体组织、器官的重要组成部分,在真核细胞的各个区室内承载着多种功能。蛋白质的功能取决于它所在的隔室或细胞器,因为它为其功能提供了生理环境。亚细胞定位是决定蛋白质功能注释的主要因素,使得复杂的药物设计成为可能;然而,异常蛋白质的亚细胞定位可以影响蛋白质表现出的功能,可能助长许多人类疾病的发病;如代谢,心血管和神经退行性疾病,以及癌症。因此,预测蛋白质的亚细胞定位作为一项重要研究内容,已成为生物信息学的热点课题之一。本文采用深度学习网络框架对亚细胞定位进行研究,具体研究工作如下: (1)在数据输入方面,考虑到蛋白质N-端序列对于亚细胞定位研究的重要性,本文在保留N-端特征的基础上,加入了残基统计特征,Go项注释特征,最近邻功能域特征,上述特征涵盖了PSSM矩阵、GO项系数、伪氨基酸组成在内的多种特征,很好的表达了蛋白质序列的相关信息。最终相关特征整合为一维特征向量作为输入。 (2)本文构建了一种新的基于ResC-LSTM深度学习网络框架,并用于蛋白质亚细胞定位。该ResC-LSTM框架是由Resnet,多尺度卷积CNN,双向LSTM整合而成,首先接受上述一维特征作为输入,使用多尺度卷积在输入特征上提取更多信息;随后通过Resnet的残差映射以及恒等映射有效的处理序列特征;最后利用双向LSTM充分处理数据特征,从而提高预测精度。针对模型参数方面的优化,本文使用交叉熵损失函数来降低离散数据的影响,并使用随机梯度下降算法对模型的超参数进行调优。 (3)为了验证ResC-LSTM网络框架的有效性,本文在两个标准数据集(DeepLoc数据集以及H(o)glund数据集)上分别进行测试,两个标准数据集进行交叉验证并且选择最优数据集作为本文的测试集以及训练集。经过多次实验,本文在十个位点的亚细胞定位上整体精度达到了85.3%,得到结果优于现有算法。同时本文又利用本文框架在真菌、动物、植物数据集上分别进行测试并与其方法比较,结果表明ResC-LSTM框架在其他数据集上也具有较好的表现。 最后,本文对蛋白质亚细胞定位的研究工作进行了总结,并对今后的工作进行了展望。

关键词

蛋白质/亚细胞定位/深度学习/网络框架

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

李重

学位年度

2019

学位授予单位

浙江理工大学

语种

中文

中图分类号

Q5
段落导航相关论文