摘要
精神分裂症的研究一直都是脑科学研究的重要部分,近年来受到了全世界的广泛关注。许多研究集中于通过统计分析、数据挖掘和机器学习等方法来探索遗传变异与脑影像之间的关系,旨在为精神分裂症的临床诊断与治疗提供帮助。但从大量遗传基因与大量脑影像之间发现与精神分裂症相关的重要基因与异常脑区仍具有挑战。因此,对于寻找大规模数据的相关分析方法非常重要。 本文我们使用了一种基于结构约束的稀疏典型相关分析算法来研究大量单核苷酸多态性(SingleNucleotidePolymorphism,SNP)与功能磁共振成像(FunctionalMagneticResonanceImaging,fMRI)之间的关联,发现与精神分裂症相关的生物标记。根据遗传基因与脑影像数据小样本高维的特点,研究者大多首先采用降维方法,然后再进行关联分析,但这样不仅会丢失有用的信息,而且由高维数据带来的过拟合现象仍然存在。为了改善过拟合的现象,我们采用基于正则化的稀疏表示方法,通过给高维矩阵乘以一个稀疏向量,将大部分元素置为零并保留主要的显著特征。一方面,考虑基因组中的连锁不平衡和各脑区的空间结构信息,我们通过数据驱动获得特征的网络结构作为先验,指导fusedlasso进行特征选择。另一方面,由于神经影像数据和遗传数据不一定严格的服从高斯分布,仅考虑二阶统计量很难发现真正有意义的信息。因此,本文在最大化两类数据的相关性的同时,利用负熵这个高阶统计量从每类数据中选择出具有统计独立性的变量。最后,使用交替最小二乘法对这种非凸优化模型进行求解。 在模拟与真实的影像遗传数据集上进行交叉验证实验,模拟数据上的实验结果表明,本文算法的效果明显优于另外两个广泛使用的稀疏算法;真实数据上的实验结果表明,本文算法一方面能在有效的时间内解决超高维数据的特征选择,另一方面,有效发现了与精神分类症有潜在联系的基因和脑区,为精神疾病的研究提供帮助。