全基因组关联分析(genome-wide association study,GWAS)是定位基因组中与性状显著关联的变异位点的有效方法.随着表型记录的完善、高通量基因型分型技术的发展,以及统计方法的改进,全基因组关联分析在人类疾病、动物植物遗传等领域得到了广泛的应用.假阳性是影响全基因组关联分析结果可靠性的重要因素之一.为了控制假阳性,除了校正P值,GWAS模型从最简单的方差分析(或用于质量性状的卡方检验)到加入固定效应协变量的普通线性模型(general linear model,GLM),再到加入随机效应的混合线性模型(mixed linear model,MLM)持续改进,控制了多种混杂因素导致的假阳性.将个体的遗传效应拟合为由基因组亲缘关系矩阵(genomic relationships matrix,GRM)定义的随机效应是目前常用的方法.由于MLM的参数估计大量消耗计算资源,研究人员不断尝试模型求解优化和GRM的构建优化(GRM的构建优化同时也提高了计算效率),最终将基于MLM计算的时间复杂度由0(MN3)逐步改进到0(MN),实现了计算速度与统计功效的飞跃.针对质量性状病例对照比失衡带来的假阳性问题,研究人员进一步对广义混合线性模型(generalized linear mixed model,GLMM)进行了校正.本文较全面地介绍了 GWAS的基本原理和发展,着重阐述了 GWAS中MLM模型的改进和优化细节,同时,列举了 GWAS在农业中的应用,包括在植物、动物和微生物方面的研究成果,以及基于单倍型的GWAS应用.最后,从进一步提高GWAS统计功效和GWAS试验设计2个角度对GWAS未来的发展进行了展望.
Principle,Optimization and Application of Mixed Models in Genome-Wide Association Study