首页|综合性可变剪切分析工具的开发及应用

综合性可变剪切分析工具的开发及应用

黄圣惠

综合性可变剪切分析工具的开发及应用

黄圣惠1
扫码查看

作者信息

  • 1. 温州医科大学
  • 折叠

摘要

可变剪切(Alternative splicing, AS)是在 pre-mRNA剪切形成成熟 mRNA过程中,外显子有选择性地保留或移除的过程,这一过程对基因表达控制和蛋白质多样性的产生有着重要作用。可变剪切普遍存在于真核生物中,在人类基因中有 90%-95%的基因经历可变剪切。可变剪切过程依赖于生物大分子复合物剪切体识别不同的剪切位点。多种序列特征,如剪切点强度、外显子/内含子结构和 GC 含量,影响着外显子的移除或包含。RNA 结合蛋白(RBP)和其结合位置不同影响着可变剪切输出。此外,可变剪切过程还与转录过程存在耦合, RNA 聚合酶Ⅱ的延申速度影响剪切体对剪切位点的识别,DNA 甲基化和各种组蛋白修饰也影响着可变剪切过程。 在近 20 年的发展中,高通量测序技术得到广泛应用,并产生诸如 ENCODE、TCGA、ICGC 等大项目,积累了大量的组学数据。尽管当前有许多软件用于可变剪切分析,但它们通常只专注于可变剪切分析的一两个层面。当前大多数可变剪切分析软件专注于差异可变剪切分析,其他少数的分析软件则着重于可变剪切事件的其他方面如:序列特征提取、功能富集分析和RBP motif分析等。因此,我们缺乏一款能够高效且全面地对当前积累的多组学数据进行可变剪切调控分析的软件。 目的: 开发一款可以进行综合性可变剪切分析的工具,用于多实验条件下可变剪切事件分析以及剪切调控因子分析: 1. 可变剪切事件的定量以及差异可变剪切事件的识别; 2. 可变剪切事件以及可变剪切事件类型分布表征; 3. 可变剪切事件PSI/dPSI模式分析; 4. 基于可变外显子的可变剪切事件聚类分析; 5. 可变剪切事件的功能富集分析和比较; 6. 可变剪切位点侧翼区域RBP结合蛋白的识别; 7. 可变剪切位点序列特征如 GC含量、外显子长度、剪切位点强度的提取和分析; 8. 可变剪切位点侧翼区域组蛋白修饰和染色体可及性信号特征提取和可视化分析; 方法: 1. 从公共数据库ENCODE下载小鼠胚胎时期前脑发育e11.5-e16.5和p0阶段的RNA-Seq数据和 8种组蛋白修饰的 ChIP-Seq数据以及 ATAC-Seq数据;从GEO下载人类胚胎干细胞诱导分化为神经元的7个时间点RNA-Seq 数据; 2. 采用salmon软件进行RNA-Seq数据的转录本定量; 3. 采用Python和R编程语言进行软件功能开发和功能整合; 4. 将开发好的工具应用于小鼠胚胎时期前脑和人干细胞诱导分化的多组学数据,进行可变剪切分析。 结果: 1. 在本研究中,我们成功开发了可变剪切综合性分析工具包ASTK; 2. ASTK可用于 7种可变剪切事件类型的识别定量以及差异可变剪切事件分析; 3. ASTK可基于可变外显子长度分布对可变剪切事件进行聚类分析; 4. ASTK 可用于不同实验条件下可变剪切事件分布描述和不同可变剪切事件类型的分布描述; 5. ASTK可用于可变剪切事件PSI以及dPSI的模式分析; 6. ASTK 可同时提取不同可变剪切事件类型上的剪切位点强度、剪切位点侧翼区域的 GC含量以及外显子和内含子长度特征值,以及可以进行不同实验组条件下统计显著性比较; 7. ASTK可用于基于过表达功能富集分析,可使用GO、KEGG和Reactome三个数据库,以及提供基于可变外显子结构注释的功能富集分析方法; 8. ASTK提供可变剪切位点侧翼区域的RNA结合蛋白motif富集分析; 9. ASTK 可用于可变剪切位点侧翼区域的组蛋白修饰和染色体可及性信号表征,以及在不同条件下进行信号比较; 10. ASTK提供了打包好的Docker镜像资源。 结论: 在此,我们开发了 ASTK(Alternative Splicing ToolKit),一个整合了当前多个流行且强大分析软件的工具包,可以系统性地分析 AS 事件及其调控因子:包括可变剪切事件类型的识别、定量和差异可变剪切分析;根据剪切外显子的长度对 AS 事件进行聚类;序列特征的提取,如剪切位点强度、外显子长度、GC含量等特征;可变剪切基因的功能富集分析;识别调控可变剪切的 RNA结合蛋白以及结合位点分布以及描述可变剪切位点侧翼区域组蛋白修饰信号和染色体可及性信号分布。综合性可变剪切分析的工具 ASTK 可以为当前累积的大量多组学数据的提供快速且全面的可变剪切分析。基于 ASTK 的公共多组学数据的分析,我们发现一些有趣的现象。在小鼠胚胎时期的前脑发育中,差异AS事件数目也随发育进程增加,其中 SE和 AF是出现最多的两种类型。基于 AS事件PSI 的PCA分析表明PSI值也可以同基因表达量一样用于描述样本特征。将 AS事件基于可变外显子长度分类成 micro-exon、mid-exon和 macro-exon三组,并进行功能富集比较,发现它们有着明显不同的生物学功能。在对 AS 事件的两种剪切形式的序列特征和表观遗传特征进行比较分析,我们发现其序列特征和表观遗传特征都有明显的差异。这些发现表明 ASTK 在可变剪切分析方面具有良好的应用潜力,我们相信ASTK将会有更广泛的应用前景。

关键词

信使核糖核酸/可变剪切/组学数据/软件开发

引用本文复制引用

授予学位

硕士

学科专业

生物学

导师

张懿

学位年度

2023

学位授予单位

温州医科大学

语种

中文

中图分类号

Q5
段落导航相关论文