摘要
近年来,癌症发病率一直居高不下,严重威胁人们的生命健康。鉴于癌症的高度异质性与个体差异性,即使是同一类型癌症,通常也可以将其细分为多种亚型。癌症精准分型不仅能帮助揭示癌症亚型的形成机制,而且对于推动精准医疗的发展具有重要意义。 临床上传统的癌症分型主要依赖医生经验,这在一定程度上受到个人经验和主观判断的限制。随着高通量测序技术的进步,基于组学数据的癌症分型预测方法应运而生。在利用组学数据进行癌症分型的初期,大部分研究聚焦于使用无监督学习实现组学数据的分层与聚类。但无监督学习没有利用样本标签信息,往往导致分型准确率较低。随着越来越多标注详尽数据集的产生,特别是癌症多组学数据变得可以获取,有监督的多组学数据整合方法得到了快速发展。基于此,本论文旨在研究如何通过有监督学习方法有效地整合多组学数据,以提升癌症亚型识别的准确率。 本论文提出了一种基于多组学数据整合与图神经网络的癌症分型预测框架,称之为MOFNet(Multi-OmicsdataFusionNetwork)。该方法通过整合mRNA表达、DNA甲基化、microRNA表达等多类型异质组学数据,对乳腺癌、低级别脑胶质瘤、胃腺癌三种发病率较高的癌症进行分型研究。MOFNet主要由本文提出的组学特异性学习方法SGO(SimilarityGraphpOolingwithstructurelearning)与多组学数据整合的方法VCDN(ViewCorrelationDiscoveryNetwork)两个模块组成。MOFNet仅用至多25%的特征进行预测,便可超越当前已有的癌症分型方法的性能,实现癌症亚型的精准分类。 在组学特异性学习方面,本论文提出了SGO方法。SGO方法是一种基于改进图池化的冗余特征消除编码器,主要包含图卷积、图池化和图结构学习三部分。SGO方法将图卷积神经网络作为组学特异性学习的基础模块。在此基础上,SGO提出了一种改进的图池化网络,以实现特征维度的压缩,解决了传统图池化方法不能有效优化组学调控关系一致性的问题。同时,SGO通过引入多图对应节点得分先汇聚再分发的机制,有效增强了组学调控关系的可解释性。此外,SGO还引入了图结构学习方法GSL(GraphStructureLeaming)。该方法通过评估孤立节点与其他节点的相似度,将孤立结点与最佳节点相连,解决了孤立结点阻碍信息有效流动的问题。 在多组学数据整合方面,MOFNet构建了一个跨组学发现张量,并输入给VCDN以完成最终预测。该跨组学发现张量由异质组学数据的初步预测结果构成,反映了跨组学标签的相关性。VCDN通过探索深层标签空间中异质组学数据类型之间的潜在相关性,有效整合来自每种组学数据的初始预测。通过这种方式,MOFNet能够深入挖掘并整合各组学层次的互补信息,从而提高分类任务的精确度和可靠性。 为验证MOFNet框架的有效性和优越性,本文从以下几个方面进行了详细评价:(1)通过与现有的多种机器学习和深度学习方法进行综合对比,使用多维指标对MOFNet的性能进行全面评估,结果表明,在三种指标下,MOFNet框架比次优模型性能平均提升约7.7%;(2)在不同池化层的条件下,将MOFNet与其多种变体策略进行对比实验,例如使用全连接神经网络(FullyConnectedneuralNetwork,FCN)代替VCDN的MOFNet_FCN方法,以及用多视图注意力(Multi-ViewAttention,MVA)取代VCDN的MOFNet_MVA方法。在三种指标下,MOFNet框架比次优变体方法性能平均提升约4.6%。通过与多个变体框架的全方位对比,证明了SGO与VCDN两个模块的有效性与必要性;(3)通过组学消融实验,进一步证明整合多组学数据对于提升模型性能的重要性(三组学MOFNet框架比任意双组学或单组学模型性能平均提升约7.0%);(4)通过特征重要性变化实验,证明MOFNet能够对特征权重进行自适应调节;(5)通过对所研究的三种癌症中,特定基因集功能富集分析及相关生物标志物的挑选,进一步验证MOFNet框架的应用价值和潜力。