首页|基于多任务学习的DNA增强子-启动子相互作用识别方法

基于多任务学习的DNA增强子-启动子相互作用识别方法

蓝恭强

基于多任务学习的DNA增强子-启动子相互作用识别方法

蓝恭强1
扫码查看

作者信息

  • 1. 哈尔滨工业大学
  • 折叠

摘要

DNA序列中的增强子和启动子在基因表达调控中起重要作用,是激活和维持基因转录的关键。准确地预测增强子和识别增强子-启动子相互作用(Enhancer-PromoterInteractions,EPI)对于理解生命活动的机理、发现疾病产生的原因都具有重要意义。因此,增强子预测和EPI识别吸引了更多研究者关注。现有的增强子预测方法主要利用高通量实验得到的基因组特征来表示DNA序列。但当缺失高通量特征时,目前的方法无法完成增强子预测。同时现有的EPI识别研究往往忽略了增强子对EPI的触发作用,导致EPI识别性能受到影响。针对以上问题,本文首先研究有效的增强子预测方法,在此基础上研究基于多任务学习的EPI识别方法。本文主要研究内容包括: 结合注意力机制和对抗网络的增强子预测方法研究。针对现有方法对高通量基因组特征强依赖性的问题,提出采用DeepSea模型预测的染色质特征表示DNA序列。针对现有方法建模长DNA序列能力不足的问题,则借助双向长短时记忆网络建模DNA序列的上下文信息,采用注意力机制建模DNA序列内部的特征关联关系。在公开数据集上的实验结果显示:在同物种增强子预测上,该方法相比现有最佳方法的AUC、AUPR和F1值分别提升了1.70、1.35和2.75个百分点。针对增强子的物种特异性问题,本文引入对抗网络来捕获不同物种间的共性特征,提升跨物种增强子预测的性能。实验结果显示,在跨物种增强子预测上,该方法相比现有最佳方法的AUC、AUPR和F1值分别提升了2.85、2.70和2.60个百分点,达到目前已知最佳性能。 基于多任务学习的增强子-启动子相互作用识别方法研究。针对现有方法采用dna2vec表示DNA序列信息不足的问题,本文在dna2vec的基础上引入高通量基因组信息。针对现有的EPI识别方法忽略增强子对EPI的触发作用的问题,提出采用多任务学习对增强子预测任务和EPI识别任务进行联合建模,通过设定任务私有层及共享层,同时提取两个任务之间的共有特征及任务特定特征来提高EPI识别的性能。实验结果表明,采用多任务学习的方法相比现有最佳方法的AUC、AUPR分别提升了2.0、2.0个百分点,说明结合增强子预测的多任务学习方法可以有效提高EPI识别的性能。

关键词

增强子-启动子相互作用识别/增强子预测/多任务学习/对抗网络

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

徐睿峰

学位年度

2020

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

Q81
段落导航相关论文