摘要
目的: 男性型脱发(male-patternbaldness,MPB),又称雄激素性脱发(AndrogeneticAlopecia,AGA),是常见的男性脱发类型,大约80%的表型差异可以用遗传因素解释。目前的MPB遗传推断研究主要基于欧洲人群,东亚人群相关研究较少。本研究通过在中国人群中对欧洲人群MPB关联位点进行验证分析以及MPB全基因组关联分析,筛选中国人群MPB关联位点,进而建立性能较佳的MPB遗传推断模型。 方法: 本研究分为三个部分。首先,在312名中国汉族男性样本中,对486个与欧洲人群MPB相关SNP位点进行了关联验证并初步筛选位点,分别使用逐步回归和Lasso回归方法对初筛位点进行优化筛选,使用逻辑回归算法构建预测模型,通过十折交叉验证的方法评估,之后进一步比较了逻辑回归、k近邻分类器、随机森林、支持向量机四种常用分类器模型对MPB的预测准确性。然后,扩大待验证欧洲人群MPB相关SNP位点至593个,基于4种关联分析方案,在825名中国男性中进行关联验证,使用Lasso回归方法对关联出的位点进行优化筛选。使用逻辑回归算法构建多个预测模型,通过十折交叉验证的方法评估。最后,在825个中国人群男性样本中进行MPB表型的全基因组关联分析(genome-wideassociationstudy,GWAS),将新发现的MPB相关SNP位点与上述模型中的位点合并后建立MPB预测模型,通过十折交叉验证和独立验证集验证对模型性能进行评估。 结果: 第一部分研究中,有174个SNP位点与中国汉族男性的MPB显著相关(P<0.05)。通过不同的筛选方法,分别得到了22个SNP和25个SNP的位点集合。基于上述位点集合建立了22-SNP和25-SNP两种逻辑回归预测模型。以AUC来衡量,两种模型对MPB预测的准确性分别为0.85和0.84;经十折交叉验证后预测准确性分别下降至0.81和0.77。当加入年龄作为预测因子后,两种模型的AUC均达到最大值0.89。从运行结果来看,逻辑回归预测模型较本研究中的其他分类器模型具有明显优势。第二部分研究中,有215个SNP位点与中国男性的MPB显著相关(P<0.05)。Lasso回归后,4种关联分析分别得到了33个、25个、33个和20个SNP的位点集合。对4组位点取并集后,获得66个SNP的位点集合。通过不同的筛选方法,最终得到了54个SNP和34个SNP的位点集合。基于上述位点集合建立了66-SNP、54-SNP和34-SNP三种逻辑回归预测模型。以AUC来衡量,三种模型对MPB预测的准确性分别为0.79、0.78和0.77;经十折交叉验证后预测准确性分别下降至0.70、0.70和0.72。第三部分研究中,全基因组关联分析发现68个SNP位点与MPB显著相关(P<1×10-6)。68个SNP所在基因区域包括2个已报道的MPB相关基因区域(EBF1和TCF12)以及7个新的关联基因区域(PTPRD、CA10、TLN2、ALPL、CDK2AP2、PITPNM1、PTPN1)。以新发掘的位点和前期积累的模型位点为位点集合,经过筛选后,获得了40个SNP的位点集合。基于上述位点集合构建了40-SNP逻辑回归预测模型。以AUC来衡量,模型对MPB预测的准确性为0.86;经十折交叉验证后预测准确性下降至0.82。在独立验证集中,模型的整体预测准确率为81.3%,敏感性和特异性分别为0.77和0.79。 结论: 总体而言,本研究在中国人群中发现了7个新的MPB关联基因区域,并通过对已知欧洲人群MPB位点进行验证筛选了一系列中国人群MPB相关位点,加深了对中国人群MPB遗传基础的理解。基于这些位点,探索适用算法并建立了性能较高的MPB遗传预测模型,其预测准确性达到临床期望的水平,为之后中国人群MPB表型遗传推断技术的应用奠定了基础。