摘要
转录因子结合位点(Transcription Factor Binding Sites,TFBSs)是一段特定的 DNA 序列,转录因子可以通过绑定该序列来促进或抑制基因表达,从而影响蛋白质的合成。因此,准确预测 TFBSs 对于理解基因调控网络和疾病发生机制极为重要。转座酶可及染色质高通量测序(Assay for Transposase-Accessible Chromatin with high-throughput Sequencing,ATAC-seq)技术作为一种高通量测序技术,能够揭示染色质开放区域,并生成大量生物信息学数据,从而为研究转录因子结合模式(motif)提供了新视角。然而,从 ATAC-seq 数据中准确识别转录因子结合位点及其motif,仍是生物信息学领域的一项重大挑战。 目前基于深度学习的 ATAC-seq motif 发现方法主要采用卷积神经网络技术。然而,由于卷积核宽度的限制,这些方法在发现不同长度的转录因子结合位点方面存在局限。鉴于此,本文基于人类和小鼠的 ATAC-seq 数据,构建了一个多尺度序列异构图,并提出了两种图神经网络模型:MMGraph 和 MMGAT。MMGraph通过两层图卷积运算来学习多尺度序列异构图中节点的向量嵌入,以预测 ATAC-seq 序列中的 TFBSs,并结合节点向量嵌入和共存概率发现多种motif。尽管 MMGraph 在多方面展现了其优势,但仍存在一定局限,特别是在动态更新节点间边权重以反映相邻节点对目标节点重要性的能力方面。为了克服这一限制,MMGAT 在 MMGraph 的基础上进行了优化,通过引入双层图注意力机制动态调整节点间的注意力系数,以更精准地预测 TFBSs,并融合注意力系数和共存概率来发现多种 ATAC-seq motif。在 180 套人类和 80 套小鼠的ATAC-seq 数据集上的实验表明,MMGraph和 MMGAT的性能均显著优于现有的其他工具。具体来说,MMGraph 在人类数据集的八指标雷达面积(Area of Eight Metrics Radar,AEMR)评估中得分为 2.038,发现了 374个 motif;在小鼠数据集中AEMR得分为1.780,发现了347个motif。而MMGAT在人类和小鼠数据集的 AEMR 评估中取得了更高的得分,分别为 2.121 和 1.949,发现了389个和356个更高质量的motif,展示了更优的性能。 为便于研究者使用这两种模型,本文还开发了一个在线分析系统,旨在从ATAC-seq数据中发现多种motif。该系统提供ATAC-seq数据查询、转录因子结合位点预测、motif发现及下游分析等关键功能,并分享了 180套人类和 80套小鼠 ATAC-seq数据集的 motif发现结果及其可视化。系统设计了直观简洁的交互界面,用户无需编程知识即可使用本系统,进而轻松地从 ATAC-seq 数据中寻找motif。