首页|基于机器学习的蛋白质相互作用预测研究

基于机器学习的蛋白质相互作用预测研究

刘凡殊

基于机器学习的蛋白质相互作用预测研究

刘凡殊1
扫码查看

作者信息

  • 1. 山东工商学院
  • 折叠

摘要

蛋白质在生物体的细胞过程中扮演重要角色,其功能的发挥是依靠蛋白质相互作用展现的。丰富的蛋白质相互作用信息可以促进疾病的治疗和药物的研发,因此,对蛋白质相互作用的准确预测具有重大意义。高通量的生物实验可用于预测新的蛋白质对,但操作起来既昂贵又耗时,不能满足人们对该类信息的需求。随着机器学习的兴起和计算机算力的日益强大,采用科学计算模型预测相互作用成为首选。本文以蛋白质序列为出发点设计预测蛋白质相互作用的二分类模型,从以下两方面内容展开了研究: (1)基于SVM-SRC概率融合方法的蛋白质相互作用预测模型。 针对单一分类器的局限性和噪声对预测结果的影响,提出SVM-SRC概率融合方法。SVM-SRC概率融合方法选择泛化能力较强的支持向量机为子分类器,使用间隔超平面分辨识别困难的边缘样本和容易识别的样本。对于没有明显类别偏向性的边缘样本,采取经过过滤的重构字典训练稀疏表示分类器,使用概率将两种决策结果融合的方式预测目标类别。首先针对现有特征提取方式繁琐复杂和特征种类单一的问题,采用组合、转换、分布和自协方差四种编码方式分析氨基酸理化性质,将蛋白质序列对应氨基酸残基数字化,构成了一种新的蛋白质序列表征模式,综合考虑了多种物理化学性质对蛋白质相互作用的影响。其次在特征选择模块,采用随机森林的特征重要性获取最佳特征子集。在将高维原始特征降维的同时,还有利于了解不同氨基酸理化性质与蛋白质相互作用存在的潜在联系。最后,对模型的参数和阈值进行调优,将数据输入概率融合模型得到决策结果。实验结果表明,SRC可以作为SVM的有效补充。在酵母、人类、幽门螺旋杆菌数据集五折交叉验证下的准确率分别达到94.7%、97.12%和88.53%,具有良好的预测效果。 (2)基于深度学习的蛋白质相互作用预测模型。 针对庞大数据集带来的预测效率低下的问题,为了充分利用大数据带来的优势,提出一个预测蛋白质相互作用的深度学习框架。将一对蛋白质序列编码后分别馈送到嵌入层、长短期记忆神经网络和具有一个隐藏层的神经网络,然后首尾连接输出的向量,将其输入具有两个隐藏层的全连接层,通过softmax函数对未知蛋白质序列对进行预测。该网络结构能够学习顺序空间上氨基酸残基之间的短程和长程依赖性,并且能够提取出较为抽象复杂的特征。实验结果表明,本文的深度学习框架在人类蛋白质互作数据集五折交叉验证下的准确率高达98.9%,具有良好的预测效果。

关键词

蛋白质相互作用/支持向量机/稀疏表示/概率融合/深度学习

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

刘培强

学位年度

2022

学位授予单位

山东工商学院

语种

中文

中图分类号

Q81
段落导航相关论文