摘要
高维、复杂的生物数据中潜藏着大量与生命健康密切相关的信息,生物数据往往具有样本量小、维数高的特点,因此如何对其进行有效降维并提取重要信息,对疾病诊断、药物研发、个性化医疗等具有重要意义。由于生物体自身的复杂性导致分子间存在错综复杂的交互作用,对此,本文分别从特征选择与特征提取两个角度出发,利用分子间的关联关系从复杂的生物数据中提取出具有重要意义的信息,具体研究内容如下: 1.提出了基于协同作用网络的特征模块搜索算法MSIG(ModuleSelectionBasedontheInteractionGain)该方法利用交互增益构建协同作用网络,并将该值作为边的权重。在对网络进行分析,搜索重要的模块过程中,利用边聚集系数对边的权值进行加权来衡量候选节点与当前特征模块连接的紧密程度,将网络拓扑结构信息与节点(特征,即生物分子)自身分类性能相结合来搜索富含信息的网络模块。在10个公共数据集的实验结果表明,在多数情况下MSIG算法确定的网络模块性能优于对比的基于分子层面与网络层面的特征选择方法所确定的特征子集。 2.提出了基于相关性网络的变分自编码器特征提取算法VAMCN(DimensionReductionofVariationalAutoencoderBasedontheMolecularCorrelationNetwork)。该方法利用斯皮尔曼系数构建相关性网络,综合考量网络中节点(特征,即生物分子)与其近邻节点的方差值作为衡量节点重要性指标,选取重要特征子集,实现前期数据预处理。为使得变分自编码器网络结构稀疏化,将基于所选特征子集的斯皮尔曼相关性网络嵌入到输入层与第一隐藏层之间。此外,考虑单细胞转录组测序数据自身特点,在变分自编码器损失函数中融入输入数据多项分布的负对数似然函数,以进一步提高模型性能。实验结果表明在大多数情况下该算法优于基于变分自编码器的VASC算法与在单细胞转录组测序数据中已被广泛应用的PCA、t-SNE、ZIFA算法。 本文所提出的两种算法均是针对生物数据的特征降维技术,均通过考虑分子间的关联关系实现对原始高维数据的有效降维。MSIG是一种特征选择算法,目的是确定生物标志物。VAMCN是一种特征提取技术,能够有效提取复杂抽象特征。