摘要
蛋白质翻译后修饰(Post-TranslationalModification,PTMs)是调节蛋白质功能的重要机制,其在生物过程和信号通路中起着主要的作用。正常的PTMs可以调节蛋白质的生理功能,而异常的PTMs会导致蛋白质构象改变、功能紊乱以及生理活性丧失,引起疾病的发生。因此对修饰位点的识别有助于理解蛋白质的细胞功能和分子机制。此外,蛋白质翻译后修饰位点预测是典型的非平衡数据集分类问题,由于传统的机器学习算法不适用于非平衡数据集,所以需要探索发现有效的平衡数据集的方法。 针对蛋白质S-亚磺酰化位点的预测问题,本文尝试使用了两种处理非平衡数据集的方法。第一种,从数据层面出发,使用重采样算法对训练数据进行SMOTE过采样以及OneSidedSelection欠采样操作后,使用平衡的训练集基于随机森林算法构建预测器。第二种,从算法层面出发,运用集成学习的思想,使用集成随机森林算法构建预测器。通过大量的实验,分析对比了两种方式构建的预测器性能,在本文选用的S-亚磺酰化数据集下,集成随机森林的性能更好。 针对蛋白质琥珀酰化位点的预测问题,首先,采用了频率向量、氨基酸物理化学性质、OneHot编码作为特征提取方法。其次,为了降低特征维数,提高特征表达性,对氨基酸理化性质使用了离散小波变换,对OneHot编码使用了Extra-Trees特征选择算法。最后,使用宽度学习算法构建预测器iSuccLys-BLS,并在宽度学习算法的基础上提出随机标记样本法解决非平衡数据问题。通过大量的实验验证,以及与同类型预测器的比较,iSuccLys-BLS对正样本的分类性能最佳。说明基于宽度学习的随机标记样本法具有实际意义和有效性,是解决非平衡数据问题的新思路。此外为了方便广大研究者对本论文研究成果的使用,已将iSuccLys-BLS部署到了线上服务器上,网址为:http://jci-bioinfo.cn/iSuccLys-BLS。