摘要
代谢组学是关于定量描述生物内源性代谢物质的整体及其对内因和外因变化应答规律的科学,是系统生物学的有机组成部分。以核磁共振(Nuclear MagneticResonance,NMR)为主要分析手段的代谢组学通常称为NMR代谢组学,已经广泛地应用到了包括药物研发,分子生理学,分子病理学,基因功能组学,营养学,环境科学等重要领域。 NMR代谢组学的数据具有非线性、高维性、小样本性等特点,开发符合这些特性、且具有一定普适性的数据分析方法是代谢组学发展的关键。本文从和数据分析两个方面入手,提出基于数据统计差异性的自适应分段积分方法和基于非负矩阵分解算法的数据分析方法。本文的主要内容如下: 一、简要综述了目前代谢组学研究中常用的模式分析方法,讨论了代谢组学数据分析的发展趋势。 二、提出了基于统计差异性的自适应分段积分数据预处理方法。提出描述数据统计差异性的函数,并根据变量的统计差异性自适应地选择积分间隔,实现数据矩阵的自适应分段积分。采用模拟数据集和素食研究的真实数据集对算法有效性进行验证,结果表明,自适应分段积分有助于提高样品分类与特征代谢物寻找的准确性。 三、将非负矩阵分解(NMF)算法引入NMR代谢组学模式分析中,分析2型糖尿病病人与健康人的血液及尿液样品,得到与2型糖尿病相关的一些特征代谢物。通过与PCA分析结果的比较,显示了NMF算法基于数据非负性和局部表示的思想更适于小浓度标记代谢物的检测。 研究表明,基于数据统计差异性的自适应分段积分方法和基于非负矩阵分解算法的模式识别方法能够得到更可靠的模式识别分析结果,使寻找到的特征代谢物更具有生物学意义。