摘要
随着二代测序技术的高速发展,单细胞转录组测序(scRNA-seq)被用于测量单个细胞中基因表达情况,解决了传统测序技术掩盖细胞内基因表达异质性的问题,极大的推动了疾病治疗中细胞异质性和功能异质性问题的研究。在不同的数据收集过程中,仅靠转录组分析并不能很好的研究细胞内潜在的转录调控机制,单细胞多模态数据的整合可以很好地解决这一问题,对同一细胞添加不同组学的特征并构建转录调控网络,有利于更好的研究细胞内顺反式调控元件与基因之间的关系,了解细胞行使生物学功能的内在调控机制。 本文首先通过10x genomics上下载具有配对样本的人体外周血(PBMC)scRNA-seq与单细胞染色质可及性测序数据(scATAC-seq)数据,运用统计学方法对scRNA-seq筛选共获得12种免疫细胞共9185个特异性标记基因,这些基因具有作为免疫细胞标志物潜力。基于scRNA-seq对包含8728个细胞的scATAC-seq构建基因活跃度矩阵并进行细胞标签转移,对ENCODE数据库中19个细胞系中增强子与基因的相关性与倍数差异筛选,得到106,903个增强子-靶基因互作对。运用scATAC-seq中识别到的人体PBMC中染色质开放区域与细胞特异性标记基因与106,903个增强子-靶基因互作对相匹配,识别到10642个免疫细胞特异性增强子。 其次,本文结合Jaspar,Transfac,Uniprobe和Taipale四个数据库的711个转录因子,根据转录因子表达、转录因子与增强子结合强度及增强子所在染色质开放区域三个特征,基于最大期望化算法对靶基因的表达值拟合,迭代增强子对靶基因作用的权重以构建增强子对靶基因表达值的预测模型;12个免疫细胞预测模型平均预测的均方根误差控制在0.578,该模型能够准确对细胞特异性标记基因表达值预测,明确细胞特异性增强子作为细胞标识的精准性。 最后本文对12种免疫细胞筛选出的细胞特异性增强子-靶基因互作对以及转录因子-增强子互作对,构建每种免疫细胞类型转录因子-增强子-靶基因的三元调控网络;本研究对CD4+记忆T细胞中筛选得到的细胞特异性调控网络涉及到的基因与转录因子进行进一步分析,其中ITGB1、PBXIP1等基因在CD4+T细胞中高表达,经文献证实可作为疾病的治疗靶点;经功能分析发现CD4+记忆T细胞特异性调控网络不仅富集于常见的细胞因子通路,还涉及到癌症中PD-1检查点通路,这证明了免疫细胞特异性调控网络可以为肿瘤免疫治疗提供新的治疗靶点。 综上,本文对具有配对样本的人体PBMC样本的单细胞多维组学数据进行整合,利用ENCODE数据库中增强子与靶基因互作对筛选细胞特异性增强子;基于最大期望化算法,构建增强子转录因子对靶基因表达的预测模型,并进一步根据筛选出的免疫细胞特异性的互作关系,构建免疫细胞特异性调控网络,为免疫治疗提供新的思路与见解。