构建机器学习模型大规模预测小肽--蛋白质互作

陈余¹

扫码查看

作者信息

1. 厦门大学
折叠

摘要

细胞中存在大量非编码区所翻译的小肽，这些小肽通过与蛋白质互作发挥其生物学功能。因此，确定小肽-受体蛋白质互作是揭示小肽生物学功能的关键环节。目前仍缺少小肽-受体互作发现的高通量方法。针对这一科学问题，本文将构建一个全新的机器学习模型，通过对已有小肽-蛋白质互作面序列特征的学习，实现基于蛋白质初级序列实现小肽-受体互作的高通量预测。我们下载了来自PDB数据库的共58，264个小肽-蛋白质以及蛋白质-蛋白质互作结构并比较分析了两种互作在作用面上的结构和关键残基特征。分析表明，蛋白质-蛋白质和小肽-蛋白质的相互作用面具有较好的相似性，可以通过现有蛋白质互作数据辅助小肽-受体互作的预测。由此，我们创新性地将蛋白质互作转化成若干特定长度的连续序列片段之间的互作关系。利用该算法，我们生成了长度为15个氨基酸的433，070组相互作用序列片段对和433，070组非相互作用序列片段对。基于这些数据，我们选取逻辑回归(Logisticregression，LR)、支持向量机(Supportvectormachine，SVM)和随机森林(Randomforest，RF)这三种常见的机器学习方法，分别构建了机器学习模型开展相互作用序列片段的预测。进而基于该模型设计特定的决策系统，实现对小肽-受体互作的高通量预测。初步结果表明，随机森林RF较其他两种算法，具有更好的预测表现。基于随机森林建立的相互作用序列片段预测模型在蛋白质-蛋白质和小肽-蛋白质互作测试集上的整体准确率(Accuracy)分别为0.756和0.723。基于该相互作用序列片段预测模型建立的小肽-蛋白质结合预测模型在测试集上准确率为0.59，召回率为0.52。与现有其他小肽-蛋白质互作方法比较，该模型方法对小肽-蛋白质互作的预测精确率和准确率略差，但召回率较高，这可能是由于模型的构建原理不同而导致的。总而言之，本文通过创新性地将蛋白质互作关系转化为若干互作序列片段对之间的相互作用，从而克服当前小肽-蛋白质相互作用结构数据不足的缺点，突破对互作结构数据的依赖，实现基于初级序列的小肽-蛋白质互作的高通量预测。

关键词

小肽-蛋白质互作/机器学习/器学习模型

引用本文复制引用

授予学位

硕士

学科专业

生物学

导师

纪志梁

学位年度

2022

学位授予单位

厦门大学

语种

中文

中图分类号

段落导航