摘要
影响人类复杂疾病的因素有很多,涉及遗传因素、环境因素和它们的交互效应,识别出潜在的风险因素对理解其生物学机制和制定公共卫生预防策略具有重要的意义。全基因组关联研究(GWAS)已经确定了数千种与复杂疾病相关的遗传变异,但是这些变异通常为常见变异且只能解释性状遗传力的一小部分。罕见变异和遗传交互效应被认为是“缺失遗传力”的两大潜在来源。事实上,罕见变异关联分析和基因-环境交互效应分析已经识别了不少新的遗传风险因素,表明了它们在遗传变异关联分析中的重要性。在控制好假阳性的前提下尽可能提高统计功效一直是遗传变异关联分析领域的重要挑战。 在遗传变异关联分析中,为了寻找致病位点,要充分利用数据中已有的信息来提高统计功效。和标准前瞻性似然分析方法相比,回溯似然方法可以有效地利用基因型间的遗传信息和基因与环境因素间的关系等来显著地提高统计推断能力。另外,在回溯似然分析方法中,假设基因与环境独立可以进一步地提高统计功效,但当独立假设不成立时,效应估计会产生严重的偏差且假设检验的假阳性也会显著提高。 本文的研究内容之一是分析母亲和子代常见变异以及环境风险因素对产科和早期生命表型的影响。由于母子对数据易于收集,病例对照母子对设计是这类研究常用的实验设计。在这类研究中,回溯性似然方法可以充分利用孟德尔遗传、随机婚配和给定母亲基因型下母亲环境风险因子与子代基因型条件独立等信息来提高统计功效。本文使用经验贝叶斯方法将两种回溯性似然方法(一种假设基因-环境独立,一种不指定基因-环境关系)相结合,得到两个经验贝叶斯估计量(EB)。新估计量具有很强的数据自适应能力,其优势包括:(1)针对参数估计问题,该方法的均方误差综合来看通常比已有方法更小;(2)针对假设检验问题,该方法可以较好控制Ⅰ型错误率且统计功效综合来看比已有方法更高;(3)该方法的表现对发病率的指定不敏感,包括感兴趣参数的估计和假设检验Ⅰ型错误率。另外,针对两个新提出的EB估计量,我们还建立了它们的大样本性质,可用于构建遗传效应和基因-环境交互效应的置信区间和关联检验。模拟研究和实际数据分析证明了EB估计量具有所期望的优秀表现。 本文的另一个目标是基于病例-对照数据进行罕见变异关联分析。针对这类研究,目前存在的方法大都基于前瞻性似然模型,它们非常稳健但统计功效不够理想。本文推导出基于基因-环境独立假设的回溯似然检验方法,并且将基于回溯似然检验和已有的基于前瞻性似然检验进行适当加权,开发出一类加权检验方法。该加权检验方法具有如下两点优势:(1)无论基因-环境是否独立,该方法都能控制好Ⅰ型错误率;(2)和已有的前瞻性方法相比,该方法的检验功效综合起来看更高。大量的模拟研究和实际数据分析表明,无论基因-环境独立性假设是否成立,我们提出的方法都能很好地控制Ⅰ型错误率,且通常比现有的基于前瞻性似然的方法更有效。