摘要
随着基因分型的技术日益成熟,全基因组关联分析在鉴定人类疾病、动物和植物复杂性状受控的变异体中得到广泛应用,但也一直受假阳性的困扰。假阳性是由单核苷酸多态性(SNP)位点(或其他类型变异体)的P值高估造成,通常由群体结构和个体间的亲缘关系引起。基于单位点检验的混合线性模型将群体结构作为固定效应,将亲缘关系矩阵作为随机效应项,可以有效地控制假阳性。然而,对于由一些大效应基因和许多微效效应基因控制的复杂性状,混合线性模型的检测功效并不理想。因为混合线性模型的单位点检验,无法同时考虑多个潜在因果变异SNPs位点对性状的影响。针对这一特点,不同的多位点全基因组关联分析方法相继被提出,显著提升了检测功效,但现有多位点关联分析方法仍存在一定的不足。本研究针对现有多位点关联分析方法的不足,提出一种将变量选择方法嵌入迭代回归的多位点全基因关联分析新方法,命名为“Selector-EmbeddedIterativeRegression”,简称为SEIR。本研究分别从新方法技术框架的建立、基于不同场景的功效验证、真实数据的比较分析等角度开展了系统、深入的研究,研究结果如下: (1)首先建立了SEIR方法的技术框架。以迭代方式将变量选择方法与固定线性模型相结合,在每一轮迭代中,利用固定线性模型的快速计算的特点筛选伪QTNs集合,再利用变量选择方法,在较小的伪QTNs集合上快速实现变量选择,去除伪QTNs集合中的假阳性位点,剩余伪QTNs位点作为下一轮固定线性模型的协变量,反复迭代使用固定效应模型和变量选择方法,使伪QTNs成员在迭代中动态地“有进有出”,直到没有新的伪QTNs被检测,迭代过程停止。SEIR将固定线性模型快速检测、变量选择方法高效控制假阳性的优点有机结合,构建出一种高效的多位点全基因组关联分析新方法。 (2)模拟研究结果表明,SEIR方法中的固定效应模型可以过滤掉大部分噪音SNPs,从而使变量选择方法较快的进行伪QTNs的选择;嵌入的变量选择方法具有较高的功效,可以准确选择出和性状关联的真QTNs,从而使固定效应模型中的协变量中,具有更多的真QTNs和更少的虚假关联SNPs,可以更好地控制假阳性,提高统计功效; (3)模拟研究结果表明,在不同模拟场景下SEIR方法的统计功效,不仅高于基于混合线性模型的单位点全基因组关联分析方法,而且还高于现有的多位点基因组关联分析方法。此外,在遗传力为0.6,由500个QTNs控制的模拟场景下,100次重复结果表明,SEIR方法选择伪QTNs的策略和其它的多位点方法相比,在检测出真QTNs方面增加5%-10%左右,在检测出虚假关联SNPs方面降低0.6%-5%左右。 (4)不同物种的真实性状的研究结果表明,SEIR方法不仅可以检测到以前报道过的关联SNP位点,而且可以检测出新的关联SNP位点。以在猪背膘厚性状中检测出的新关联SNP位点为例,结合多组学数据,包括Hi-C、ChIP-seq、ATAC-seq和RNA-seq数据,验证了SEIR检测出的新关联SNP位点的可靠性。 (5)基于模拟研究结果,进一步提出一种集成使用不同全基因关联分析方法的E-GWAS策略。模拟研究结果表明,相比于其它GWAS方法,E-GWAS策略可以进一步降低10%-15%左右的假阳性率。 本研究创建一种新的多位点全基因组关联分析新方法SEIR。系列研究结果揭示SEIR具有计算速度快、统计功效高,适用范围广等优点,可以满足在不同物种中进行全基因组关联分析的要求。