摘要
蛋白质的结构与功能的研究是现代生物信息学领域中的热点问题,对蛋白质二级结构的预测是其中的重要任务之一。近年来,深度学习的方法在蛋白质二级结构预测领域得到了广泛的应用,但是存在训练时间长,并行程度低的问题。将集成学习和深度学习技术联合应用于蛋白质二级结构预测,在一定程度上可以降低模型训练的成本,同时还能联合不同模型,从多个角度分析氨基酸信息,从而提高模型的预测准确率。因此,本文基于深度学习方法,联合集成学习技术构建了蛋白质二级结构预测模型。本文的主要工作如下: 1.构建了CNN和Bagging技术的混合模型。 该模型用CNN代替简单的SVM弱分类器,有效提高了蛋白质二级结构的预测准确率。同时对Bagging模型的结合策略进行了优化,最终将蛋白质二级结构预测准确率从68.1%提高到了71.9%。 2.构建了神经网络与Stacking技术的混合模型。 在CNN与Bagging混合模型的基础上,结合Stacking技术,进一步提高了模型的预测准确率,达到73.4%。同时还提出可以依据蛋白质长度对数据集进行划分以及将三分类和八分类结果结合在一起来提高模型预测准确率,最终模型预测准确率达到了75.6%。 3.构建了蛋白质二级结构的翻译模型。 将蛋白质二级结构预测转为翻译问题,利用n-gram算法进行分词,并构建端到端的翻译模型来预测蛋白质二级结构,最终得到了最高70.6%的预测准确率。