首页|基于深度学习的抗菌肽识别和预测

基于深度学习的抗菌肽识别和预测

林剑远

基于深度学习的抗菌肽识别和预测

林剑远1
扫码查看

作者信息

  • 1. 厦门大学
  • 折叠

摘要

随着抗生素的泛滥,许多细菌对抗生素产生了抗药性,威胁到了人们的健康。抗菌肽是一种具有抗菌活性的碱性多肽物质,它具有抗菌活性高、抗菌谱广等优点,是一种具有应用前景的良好的抗生素的替代品。目前,已有许多研究人员使用机器学习算法进行抗菌肽的预测和识别,取得了优异的效果,但仍有一定的上升空间。 本文采用深度网络模型进行抗菌肽的预测和识别,并构建了一个抗菌肽预测平台,用以提供抗菌肽预测服务,辅助研究人员进行抗菌肽预测和识别,提高抗菌肽预测和识别的效率和识别准确率。 首先,构建了一个包含嵌入层、卷积层、最大池化层、双向LSTM层和全连接层的端到端网络,获取了四个不同的抗菌肽数据集,并在这四个数据集上分别训练端到端网络,与其他抗菌肽预测模型进行对比,该模型的效果优于Bi-LSTM、iAMP-2L和MAMP-Pred,在预测准确率上分别高出0.67%、3.93%和3.17%。为分析模型各个结构对模型的贡献,分别移除模型的嵌入层、卷积层和双向LSTM并重新进行训练和测试,结果显示,移除卷积层和双向LSTM层时,模型的预测准确率分别下降了3.06%和0.73%,对应的ROC曲线下面积分别减少了0.0084和0.0115,而移除嵌入层,模型预测准确率和对应的ROC曲线下面积分别减少0.62%和0.0001,这表明对于预测抗菌肽而言,利用卷积层和双向LSTM获取序列的局部信息和全局信息是重要的。 其次,从UniProt上获取共计556603条蛋白质序列,预训练的一个BERT模型,然后,在四个不同的抗菌肽数据集上分别进行微调,与AMPScan、Bi-LSTM、iAMP-2L和MAMP-Pred进行比较,在预测准确率上分别高出0.93%、0.36%、4.21%和1.51%。此外,综合了所有抗菌肽数据集,进行五折交叉验证,验证结果显示模型的特异度、敏感度和准确率均高于85%。上述实验表明基于BERT的抗菌肽预测模型是可行的,因此在综合的抗菌肽数据集上,微调了一个抗菌肽预测模型用以提供抗菌肽预测服务。 最后,通过需求分析和调研,基于Django框架设计并实现了一个抗菌肽预测服务平台,该平台所使用的模型,是在综合数据集上进行微调的基于BERT的抗菌肽预测模型。 本文的工作仍有部分不足之处,因此将来会进行数据集的重新构建、构建多分类模型、在其他蛋白质任务上运用BERT模型、进一步优化抗菌肽预测平台等工作。

关键词

抗菌肽/序列分析/预测模型/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

刘向荣

学位年度

2020

学位授予单位

厦门大学

语种

中文

中图分类号

Q5
段落导航相关论文