摘要
蛋白质是一种重要的生物大分子,是生命活动的重要承担者,蛋白质的生物功能是由蛋白质的空间结构决定的,因而进行蛋白质结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域有很重要的现实意义。蛋白质二级结构预测是蛋白质结构预测的重要组成部分,是蛋白质结构预测最关键的步骤。神经网络作为机器学习的重要方法,在蛋白质二级结构预测中得到广泛的应用,被认为是最有前景的方法之一。 本文对蛋白质二级结构特性进行了研究,为了提高蛋白质二级结构的预测精度,建立了两个神经网络集成模型。第一个是以BP网络为集成的个体网络,根据蛋白质的二级结构是由其一级序列决定的并且神经网络输出之间具有相关性,采用两个串联BP作为集成的个体网络分类器。因网络规模庞大,不可避免存在过拟合,本文中采用两种方法来避免过拟合:首先在训练过程中采用“剪枝法”来精简网络的结构;在减少网络结构也无法避免过拟合时,即网络的预测精度继续下降,则“提前结束”网络的训练。为增加网络的差异度,利用bagging方法对样本重采样并加入随机噪声作为训练集,对个体网络取不同的隐层单元数,将5个具有一定差异度的个体网络利用相对多数“投票”规则进行整合。仿真结果表明此网络集成可以较好地对二级结构进行预测。但是BP网络是以“滑动窗口”技术为基础,这种技术只考虑了残基间的短程的相互作用而忽略了氨基酸之间的远程联系。而双向反馈神经网络BRNN可以捕捉所要预测位置和序列上下游信息之间的相关性,因此本文以BRNN为集成的个体网络建立第二个蛋白质二级结构预测模型。针对BRNN网络结构复杂、收敛时间长、参数多的特点,本文将BRNN网络的左、右子网络都减少一个隐层,并且采用BP改进算法中的弹性算法进行训练。仿真结果表明改进网络可以有效地缩短收敛时间,BRNN集成可以较好地预测二级结构。