摘要
随着大数据时代的到来,许许多多的方面都会使用大数据信息,以便于更好的对研究项目进行了解,在目前的生物医学上也是要用到大数据为研究提供更多的素材。蛋白质折叠识别便是通过从生物的蛋白质序列出发对生物的蛋白质组学进行研究来提供有效便利的研究数据。这些方面的研究都对于医学的研究有重要的意义。本文主要对三个蛋白质数据DD数据集、RDD数据集和TG数据集进行研究。 本课题基于机器学习对蛋白质折叠识别的研究,主要研究内容如下: 1.本章提出基于随机森林的方法,称为RF-fold。首先通过去趋势互相关分析法(DetrendedCross-CorrelationAnalysis,DCCA)、伪氨基酸组成(Pseudo-AminoAcidCompositiosition,PseAAC)、氨基酸对频率(PairwiseFrequncy,PF1)和二元位置特异性得分矩阵(Bi-gramRepresentations,Bi-gram)4种方法,将通过上述方法得到的4种不同特征的特征向量进行融合,便可以得到一个混合特征信息的特征空间。其次,采用局部Fisher判别分析(LinearFisherDiscriminantAnalysis,LFDA)对所提取蛋白质序列的特征信息进一步的选择,达到减少重复或不需要的特征信息,选取多特征数据中最有效的特征子集。最后,将数据降维后得到的特征信息输入到RF分类器中进行蛋白质折叠识别预测。此方法在训练集DD数据集和测试集TG数据集中均取得到了较高的预测结果。 2.本章提出基于Bagging集成分类器方法,称为BAG-fold。首先通过融合对数据进行特征提取的伪位置特异性得分矩阵(PseudoPositionSpecificScoreMatrix,PsePSSM)、二级结构(SecondaryStructure,SS)、分组重量编码(EncodingBasedonGroupedWeight,EBGW)和去趋势互相关分析法(DetrendedCross-CorrelationAnalysis,DCCA)4种方法。将上述4种特征信息得到混合特征空间。其次,采用局部Fisher判别分析(LinearFisherDiscriminantAnalysis,LFDA)减少冗余信息以选取最优特征子集。最后,将数据降维后得到的特征信息输入到Bagging集成分类器中进行蛋白质折叠识别预测。此方法在训练集DD数据集和测试集RDD数据集中取得到了较高的预测结果。