摘要
后基因组时代进一步研究的关键在于全面理解生物蛋白编码的表达、调控以及功能。对蛋白质进行功能注释是当前遗传学领域的重要研究课题之一,有助于科学家从分子层面理解生物体复杂的细胞机制,在揭示遗传密码和理解生命活动等问题中起着关键作用。蛋白质功能预测旨在利用计算方法自动注释蛋白质功能,近期的工作主要集中在利用深度学习避免复杂的特征工程,但这些模型普遍存在数据利用率不高的问题:一方面,通过监督学习提取序列特征的做法忽略了大量未标注的序列数据;另一方面,现有模型依赖人工设计的集成规则挖掘生物网络特征,不能有效利用网络数据的信息。 为了解决现有方法的局限性,本文提出了一种基于同构网络的功能预测模型。首先,本文在功能预测任务中引入了预训练范式,通过预训练语言模型可以提取高效的序列特征,同时还实现了序列模型与网络模型的解耦。之后,该模型以蛋白质相互作用(Protein-ProteinInteraction,PPI)网络为主体,融合序列相似性网络以降低数据中的噪声,进而通过节点属性集成序列分布式表示特征构建同构蛋白质网络。基于此,该模型将蛋白质功能预测问题转化为同构网络上的节点分类问题解决,并通过基于中心蛋白质约束的节点嵌入模型预测蛋白质功能。在人类数据集上的实验结果表明同构算法在多个指标上取得了当前最高的性能表现,其中在MFO分支上提升最大,分别在Fmax和AUPR指标上提升了9.1%和9.7%。 基于同构网络的模型虽然性能较好,但只适用于有固定数量标签的场景。为此,本文引入异构网络来提高功能预测模型的扩展性,主要的改进有:第一,使用异构网络建模原始数据中的多种关联信息,能够避免手动设计网络融合规则,并最大程度降低了数据整合过程的信息损失。第二,该算法将功能预测任务转化为异构网络上蛋白质和功能术语节点之间关联关系预测问题解决,这使得模型能够处理非固定数量的标签。基于此,该算法使用基于注意力机制的异构网络节点嵌入算法学习蛋白质和术语节点的潜在语义表示,并引入双线性解码器计算二者表示向量相似度,进而预测蛋白质功能。实验结果表明,异构算法学习到了序列和网络数据的关键特征,实现了与同构算法相当的预测性能。同时,异构算法在数据集成灵活性和模型可扩展性方面更有优势,因此有更好的应用前景。