计算机科学2021,Vol.48Issue(3) :206-213.DOI:10.11896/jsjkx.200200081

基于聚类与特征融合的蛋白质亚细胞定位预测

Prediction of Protein Subcellular Localization Based on Clustering and Feature Fusion

王艺皓 丁洪伟 李波 保利勇 张颖婕
计算机科学2021,Vol.48Issue(3) :206-213.DOI:10.11896/jsjkx.200200081

基于聚类与特征融合的蛋白质亚细胞定位预测

Prediction of Protein Subcellular Localization Based on Clustering and Feature Fusion

王艺皓 1丁洪伟 1李波 1保利勇 1张颖婕1
扫码查看

作者信息

  • 1. 云南大学信息学院 昆明 650500
  • 折叠

摘要

蛋白质亚细胞的定位预测不仅是研究蛋白质结构和功能的重要基础,还对了解某些疾病的发病机理、药物设计与发现具有重要意义.然而,如何利用机器学习精准预测蛋白质亚细胞的位置一直是一项具有挑战性的科学难题.针对这一问题,提出了一种基于聚类与特征融合的蛋白质亚细胞定位方法.首先将自相关系数法和熵密度法引入蛋白质特征表达模型的构建,并在传统的PseAAC(Pseudo-amino Acid Composition)的基础上提出了一种改进型PseAAC方法.为了更好地表达蛋白质序列信息,文中首先将自相关系数法、熵密度法和改进型PseAAC进行融合,构造了一种全新的蛋白质序列表征模型;然后利用主成分分析法对融合后的特征向量进行降维,将结果输入到LibD3 C集成分类器,对蛋白质亚细胞进行分类预测,并采用留一法在Gram-positive和Gram-negative数据集上进行交叉检验;最后将取得的实验结果与其他现有算法进行比较.实验结果表明,所提方法在Gram-positive和Gram-negative数据集上分别取得了99.24%和95.33%的预测准确率,说明所提方法具有科学性和有效性.

关键词

特征融合/聚类/自相关系数/伪氨基酸组分法/主成分分析法

引用本文复制引用

基金项目

国家自然科学基金(61461053)

国家自然科学基金(61461054)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量3
参考文献量9
段落导航相关论文