摘要
启动子是位于转录起始位点附近并且具有调控作用的一段DNA序列,负责启动基因组中特定基因的转录,决定了基因的起始转录和表达强度。启动子的准确识别对于更好地理解转录调控具有重要意义。使用机器学习等基于计算的方法识别启动子比传统的生物化学实验方法来说更能节省成本和时间。近年来,深度学习在生物信息学研究中越来越火热,尤其在启动子识别及分类研究方面。本文基于深度学习主要研究了真核生物和原核生物启动子的识别与分类预测问题。 在真核生物启动子研究方面,主要是研究真核生物启动子识别及TATA-box类型。TATA-box启动子在基因转录过程中发挥重要作用。为了快速、准确地识别真核生物中的TATA-box启动子,本文基于深度学习思想,采用卷积神经网络(CNN)的方法设计并构建了一个两层分类器iPTT(2L)-CNN。第一层用于识别DNA序列是否为启动子,第二层用于鉴定已经识别的启动子属于TATA-box类型还是属于TATA-less类型。此外,本文还为相关研究人员提供了iPTT(2L)-CNN的在线预测服务:http://www.jci-bioinfo.cn/iPTT(2L)-CNN,在使用5折叠交叉检验的方法下,预测器的第一层和第二层的预测准确率分别为:91.97%和94.70%,可以有效地识别真核生物启动子及其类型。 在原核生物启动子研究方面,本文使用多特征融合对DNA序列进行编码并结合集成学习XGBoost分类算法构建了一个两层预测器iPSI(2L)-XGBoost。预测器的第一层用于识别DNA序列是否为原核启动子,第二层用于识别启动子是属于强启动子类型还是弱启动子类型。根据启动子强度进行分类的方法是近几年被提出的,同时也是原核启动子研究的热点问题。本文提出了一种基于主成分分析的特征编码方法PCA_PseKNC,并与使用卷积神经网络提取的特征编码进行特征融合,用于原核生物启动子的研究。本文提出的原核启动子预测器在性能上优于现有的预测器,其两层的预测准确率分别为94.13%和85.36%。因此,预测器iPSI(2L)-XGBoost是识别原核生物启动子及类型的一个有效的工具。 这些研究成果能够在启动子识别及分类领域有所帮助,同时对疾病研究、药物研发以及生物工程等方面具有重要意义。