首页|非移码插入缺失突变对蛋白质相互作用影响分析及其致病性预测方法研究

非移码插入缺失突变对蛋白质相互作用影响分析及其致病性预测方法研究

褚昕璐

非移码插入缺失突变对蛋白质相互作用影响分析及其致病性预测方法研究

褚昕璐1
扫码查看

作者信息

  • 1. 安徽大学
  • 折叠

摘要

非移码插入缺失突变(Insertion and deletionmutations,indel)是指插入或缺失的核苷酸数目为3的整数倍的突变。这种突变能够改变相关蛋白质的结构和功能,引发多种疾病。尤其是发生在蛋白质-蛋白质和蛋白质-DNA界面的非移码indel,会影响蛋白质稳定性及其与其他蛋白质和核酸的相互作用。针对非移码indel致病性,研究人员已开发预测方法,但仍存在一定的局限性。 本文对发生在蛋白质-蛋白质和蛋白质-DNA界面的非移码indel功能影响进行了深入分析,然后在对致病非移码indel预测方法进行比较分析后提出了一种集成预测方法。具体工作如下: 1.非移码indel对蛋白质-蛋白质/DNA相互作用影响分析。基于CADD(Combined annotation dependent depletion)提供的编码区非移码indel,从相对溶剂可及性、基因富集分析和残基结构功能特征方面分析了发生在蛋白质-蛋白质和蛋白质-DNA界面非移码indel可能产生的功能影响。实验结果表明,非移码indel发生的蛋白质残基倾向处于埋藏状态。热点残基上的非移码indel相关基因显著富集在癌症相关通路。通过受非移码indel影响的界面残基功能分析,发现这些非移码indel可能会对蛋白质二级结构和翻译后修饰等产生影响。同时我们还发现致病非移码indel在蛋白质-蛋白质界面热点残基中显著富集,从而可能会对其作用的稳定性产生影响。 2.基于集成学习的致病非移码indel预测方法研究。首先从算法构建、特征选取、数据输入格式以及软件可用性等方面对当前致病非移码indel预测工具进行深入的比较与总结。在此基础上,本文使用集成学习方法对致病非移码indel预测工具性能进行提升。将CADD的注释信息分成表观遗传、保守性和基因三类特征。然后将其分别与七种不同机器学习分类器相结合,根据训练集五折交叉验证结果,选取每种特征最优基分类器。最后将三种最优基分类器的预测结果作为第二层模型的输入特征,构建了基于逻辑回归的集成学习模型。与其他致病非移码indel预测方法相比,本文方法预测性能较高(AUC=0.837)。由于使用CADD注释信息,本方法始终可以返回一个预测结果,能够有效避免缺失值产生。为研究疾病与非移码indel之间的关系提供了一种有效的预测方法。 本文分析表明了非移码indel在蛋白质相互作用界面上的重要性,同时本文方法相比现有预测方法,具有优异的表现。本文的研究内容能够为预测非移码indel对蛋白质相互作用的影响及其与疾病相关性提供大量信息。

关键词

非移码插入缺失突变/蛋白质-蛋白质相互作用/蛋白质-核酸相互作用/致病性预测/集成学习

引用本文复制引用

授予学位

硕士

学科专业

生物学

导师

夏俊峰

学位年度

2021

学位授予单位

安徽大学

语种

中文

中图分类号

R3
段落导航相关论文