摘要
N7-甲基鸟苷(N7-methylguanosine,m7G)作为一种重要的表观遗传修饰,在基因表达、加工代谢、蛋白质合成、转录稳定等方面发挥着重要的作用,参与疾病发生发展等多种生命过程。因此,寻找疾病相关m7G位点对揭示疾病的发生发展机制意义重大。基于海量数据预测m7G位点与疾病之间关联有助于批量且快速的定位目标位点。但目前数据来源多种,类型多样,但仍存在关联数据稀疏、数据信息挖掘不彻底等问题。因此,本文基于卷积网络架构,对m7G位点与疾病关联关系的预测方法展开研究,具体研究内容如下: 针对关联数据稀疏和特征信息挖掘不充分的问题,融合位点和疾病的相似性数据,构建基于卷积神经网络的m7G位点疾病异构数据关联预测模型(Heterogeneous Network and Convolutional Neural Network,HN-CNN)。该模型首先构建m7G位点疾病的特征对,在此过程中融入m7G位点相似度和疾病相似度以丰富稀疏的关联数据;接着HN-CNN模型利用CNN将特征对转化为特征向量,CNN通过多个卷积核挖掘特征对的信息,使数据从稀疏变为稠密且丰富,且引入全连接使模型考虑特征数据的权重;最后,为提高模型分类效果,增加模型的鲁棒性,HN-CNN选用集成分类器XGBoost作为分类器。在m7G位点疾病关联数据集上的相关实验结果表明,HN-CNN模型能有效、精准地预测m7G位点疾病的未知关联。 HN-CNN本质上是欧氏空间下的特征提取模型,能有效提取多维特征信息。但考虑欧氏空间下数据信息有限以及冗余数据干扰预测结果的问题,在图中采用划分数据等级的方法,构建基于水波异构数据和图卷积神经网络的m7G位点疾病关联预测模型(RippleNet and Graph Convolution Network,Ripple-GCN)。首先,Ripple-GCN模型在图结构下优化异构网络,同时为克服冗余数据的干扰,该模型选用RippleNet划分数据关联程度等级;接着,模型根据高关联数据,计算m7G的特征向量和疾病的特征向量,在图结构下解决数据信息有限的问题;最后,Ripple-GCN模型采用GCN提取特征,预测m7G位点疾病之间的关联。在m7G位点疾病关联数据集上的相关实验结果表明,在图中减少冗余数据有助于提高Ripple-GCN的模型性能。