基于深度学习的蛋白质扭转角预测算法研究

文云光¹

扫码查看

作者信息

1. 河南大学
折叠

摘要

基于氨基酸序列预测蛋白质扭转角是生物信息学中的一个重要的问题。蛋白质是由20种氨基酸构成的生物大分子，其在许多生物过程中起着不可替代的作用。许多应用如药物和酶的设计等都需要了解蛋白质的结构才能确定其功能。由于蛋白质测序技术的飞速发展，目前已知的蛋白质序列已经达到了3亿多条，然而已知的蛋白质结构数量才20多万。为了缩小序列和结构数据量间的巨大差异，基于计算的方法预测蛋白质的结构及其各种属性已经获得了广泛关注。扭转角是蛋白质骨架中连续4个原子形成的二面角，蛋白质的局部结构可以由其清晰的描述。精确预测的扭转角不仅可以极大地减少构象搜索的空间并进而帮助重建蛋白质的三维结构，而且还可以应用于改进蛋白质折叠识别和多序列比对。目前已有许多研究采用深度学习技术对蛋白质扭转角进行预测，且取得了一定的效果。为了对蛋白质进行扭转角预测，需要将氨基酸序列转换为数字特征。本文分别采用基于多序列比对的谱特征和基于预训练蛋白质语言模型的嵌入特征开展蛋白质扭转角预测算法研究，主要的工作包括：（1）针对现存的蛋白质扭转角预测方法预测精度不够高、网络模型庞大的问题，设计了一种使用谱特征作为输入，结合Transformer和卷积神经网络的Transformer-CNN混合模型。该模型的编码器相较于传统Transformer的编码器，增添了一条由卷积组成的分支，用以补充局部特征，使编码器可以同时学习全局和局部特征，提升编码器特征提取能力。同时，设计了由等效替换卷积模块组成的卷积网络，用以提高预测精度且降低预测所需时间。实验结果表明，提出的预测方法提高了预测精度，且模型小于其他对比方法。（2）针对现存不依赖同源序列生成特征的预测方法编码方式简单，预测精度低等问题，提出了一种基于嵌入特征和轻量级网络的预测方法。现存预测方法大多使用需要多序列同源比对生成的输入特征，这种特征包含丰富的进化信息，对扭转角的精准预测起到重要作用。而多序列同源比对需要蛋白质拥有足够的同源序列，部分蛋白质的同源序列不足或者不存在。本文提出的方法使用蛋白质预训练语言模型对氨基酸序列进行嵌入，将嵌入信息作为输入特征。该输入特征相较于由one-hot组成的传统输入特征，包含更多的上下文信息，能够帮助更加精准的预测蛋白质扭转角。同时，设计了一种相应的轻量级网络结构和方差损失函数来进一步提高预测精度。提出的方差损失函数将重心放在网络输出中具有更大方差的位置。实验结果表明，与其他对比方法相比，提出的算法有效提高了蛋白质扭转角的预测精度。

关键词

蛋白质/扭转角预测算法/深度学习/卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

杨伟

学位年度

2023

学位授予单位

河南大学

语种

中文

中图分类号

段落导航