蛋白质是生命的物质基础,是构成细胞的基本有机物,是生命活动的主要承担者。因此,它是与生命及与各种形式的生命活动紧密联系在一起的物质。不同种类的蛋白质对生命活动的作用是不同的,关键蛋白质是指生物组织生存和繁殖以及相关特定生物功能正常执行所必需的蛋白质,在生命活动中扮演重要角色。识别关键蛋白质有助于加深了解细胞生长周期过程,从而增强对生命活动内在运行机制理解,也有助于推进对生物进化规律的研究。由此,在组学时代,随着高通量技术的发展,蛋白质相关实验数据日益丰富,基于蛋白质网络的关键蛋白质识别成为新的研究热点。 本文从蛋白质网络拓扑中心性度量融合的角度出发,在分析经典节点拓扑中心性的基础上,深入探寻关键蛋白质识别的本质特征,设计了有效的关键蛋白质识别新方法。主要研究工作如下: 首先简要描述中心性度量的基本概念,它是刻画网络节点在复杂网络中发挥相应作用的重要程度的一类指标。基于拓扑中心性度量的关键蛋白质识别方法,通常只能反映蛋白质网络中蛋白质节点的单一特征,到目前仍无法有效表征蛋白质的关键性。近来有研究指出,蛋白质的关键性具有多维度多层次性。鉴于此,本文选择有代表性的多种拓扑中心性度量,设计由这类拓扑中心性度量合理融合的机制,提出由拓扑中心性度量构建的特征空间。 其次,在拓扑中心性度量构建的特征空间中,本文将现有关键蛋白质识别方法的排序筛选方式转换为在特征空间中的分类任务。在对蛋白质网络节点和相互作用的统计分析后,本文发现这类分类任务属于非均衡的二分类。由此,本文借助研究成果相对丰富的支持向量机作为分类器,构建了在网络水平上识别关键蛋白质的新方法TC_SVM,为关键蛋白质识别研究提供了新的研究途径。实验结果表明,在给定的蛋白质网络中,通过常用统计学指标的对比分析,TC_SVM预测关键蛋白质的性能普遍高于经典的十种中心性度量,尤其在综合衡量分类性能的统计学指标F-measure和AUC上,TC_SVM具有较明显优势。通过性能分析和对比,TC_SVM方法较好的预测性能表明:对多种经典拓扑中心性度量的合理融合是可行的;同时,基于分类的思想建立关键蛋白质预测新方法丰富了相关研究。 本文提出通过融合多种中心性度量,将现有基于排序筛选方法的关键蛋白质识别转化为特征空间中的分类任务,拓宽了关键蛋白质识别的研究领域,有效地提高了识别准确度,为关键蛋白质的识别研究提供了有益的生物信息学新方法。