首页|蛋白质的耐热温度的分类与预测以及综合数据库的构建

蛋白质的耐热温度的分类与预测以及综合数据库的构建

刘萍萍

蛋白质的耐热温度的分类与预测以及综合数据库的构建

刘萍萍1
扫码查看

作者信息

  • 1. 北京化工大学
  • 折叠

摘要

有效区分蛋白质的热稳定性差异,探索影响蛋白质的耐热性的因素,一直是生物科学研究人员的重要研究课题之一。在这项研究中,使用不同的机器学习方法,结合了蛋白质的自身特征以及来源微生物的生长温度特征,进行蛋白质耐热性的分类以及蛋白质最适温度的预测,并对蛋白质耐热性的机制进行了研究。主要内容如下: (1)在具有72条蛋白质序列的小数据集上,基于Boruta和主成分分析PCA降维方法的结合,第一次建立了BOCA算法。该算法不仅可以获得所有影响蛋白质耐热性的重要特征,还可以对特征进行降维,去除重要特征间的相关性,减少特征间的冗余。将BOCA算法结合不同的机器学习模型,实现了耐热和非耐热蛋白质的分类模型。使用BOCA算法最终将434维特征向量缩减为新的18维特征向量。结果表明,BOCA特征筛选算法与以径向基为核函数的支持向量机模型SVM相结合在耐热蛋白质和非耐热蛋白质的分类中具有良好的性能。在训练集和测试集上分别达到了97.78%和96.92%的准确度。通过筛选出的特征发现耐热蛋白质含有更多带电和极性氨基酸以及分子间氢键,还证明了二肽对蛋白质耐热性的重要性。带电以及具有极性的体积较大的氨基酸的含量、二肽组成以及分子间氢键的数量是影响蛋白质耐热性的关键因素。 (2)为了使BOCA+SVM模型更具有可信性,使用该模型对四种耐热程度的4000个蛋白质以及六种耐热程度的3000个蛋白质进行分类。在训练集和测试集上对四种耐热程度的蛋白质的分类准确度分别达到了95.65%和96.40%。在训练集和测试集上对六种耐热程度的蛋白质的分类准确度分别达到了69%和70% (3)另外,结合了蛋白质的生理特征,理化特征和序列特征,应用回归模型对蛋白质的最适温度进行预测。最后在20个单个氨基酸含量与来源微生物的生长温度共21维特征组合上的随机森林模型达到了决定系数R2为0.57的预测效果。 (4)构建了综合信息数据库UniMine,相比于现有的其他蛋白质信息数据库,UniMine不仅集成了已经被人工注释的蛋白质的基本信息数据以及网页数据库链接,例如PDB数据库、STRING数据库等。并且还将代谢反应相关的蛋白质化合物活性数据库Chembl30和Bindingdb2022进行了集成。将这些蛋白质化合物的结构、Uniprotid、参与反应的活性值IC50、Ki、Kd本地化。另外在UniMine数据库中还加入了蛋白质耐热性分类、蛋白质最适温度的预测模型以及蛋白质序列比对程序。从UniMine中可以快速的获取蛋白质的一些功能与性质。

关键词

蛋白质/耐热性/机器学习/数据库

引用本文复制引用

授予学位

硕士

学科专业

生物工程

导师

陈必强/谭天伟

学位年度

2022

学位授予单位

北京化工大学

语种

中文

中图分类号

Q81
段落导航相关论文